﻿Capitolele tuturor lucrărilor din primele zece volume ale Jurnalului ACM au fost sortate astfel încât fiecare cuvânt din fiecare titlu să corespundă unui rând Cu toate acestea, unele cuvinte precum TLE și EQUATI N au fost considerate neinformative și nu au fost incluse în index Aceste cuvinte speciale și frecvența lor de apariție sunt indicate de nodurile interne în Fig Rețineți că un titlu precum "Despre soluția unei ecuații pentru o anumită problemă nouă" se dovedește a fi atât de neinformativ încât nu intră deloc în index! Este descrisă ideea indicatorului KWIC în H R Luhn, Amer Documentația ( ), - , iar indexul în sine este dat integral în WW Youden, JACM ( ), - Când pregătim indexul KWIC pentru sortare, ar putea fi nevoie să folosim un arbore de căutare binar pentru a verifica dacă un anumit cuvânt ar trebui să fie indexat Alte cuvinte care se încadrează în ordine alfabetică între cuvintele neindexate sunt prezentate ca noduri externe în Fig Astfel, în titlurile articolelor JACM pentru anii - erau exact de cuvinte situate alfabetic între cuvintele PROBLEME și SOLUȚIE Pe fig Figura prezintă arborele optim obținut conform algoritmului K pentru n = Valorile lui r[ , j] calculate pentru j = , , , sunt ( , , , , , , , , , , , , , , , , , , , , , , ); valorile lui m[r, ] pentru r = , , , sunt ( , , , , , , , , , , , , , , , , , , , , , , , , ) A) Oh, păi Orez Arbori optimi de căutare binare bazați pe jumătate din datele prezentate în fig : (a) excluzând frecvențele externe; (b) ignorând frecvențele interne "Frecvențele intermediare" qj au un impact semnificativ asupra structurii arborelui optim; în fig (a) arată arborele optim care ar fi obținut cu toate qj egale cu zero Frecvențele interne Pi sunt la fel de importante; în fig , (b) arată arborele optim atunci când este egal cu zero Cu un set complet de frecvențe, arborele prezentat în Fig necesită doar , comparații în medie; copacii din fig necesită , și, respectiv, , comparații Deoarece algoritmul K necesită timp și spațiu proporțional cu n , utilizarea sa este nepractică pentru n mare Desigur, pentru n foarte mare, putem abandona utilizarea arborilor binari și ne gândim la alte metode de căutare, despre care vom discuta puțin mai târziu Între timp, să presupunem că trebuie să găsim un arbore optim (sau aproape optim) pentru valori mari ale lui n Am văzut că ideea de a introduce chei în ordinea descrescătoare a frecvenței are ca rezultat arbori destul de buni în medie; cu toate acestea, ele se pot dovedi a fi foarte proaste (vezi exercițiul ), deoarece greutățile qj nu sunt folosite în această metodă de construcție O altă abordare este să alegeți rădăcina lui k astfel încât greutatea maximă a subarborelui max(w( , k - ), w(&, n)) să fie cât mai mică posibil Această abordare se poate dovedi a fi proastă (atunci când alegeți un nod cu o valoare mică a lui u, ca rădăcină) Cu toate acestea, teorema M de mai jos arată că arborele rezultat nu va fi atât de departe de optim O procedură mai reușită poate fi obținută prin combinarea metodelor descrise, așa cum au sugerat W A Walker și C C Gotlieb (Graph Theory and Computing (Academic Press, ), - ) Încercați să egalizați greutățile "stânga" și "dreapta", dar fiți pregătit să mutați rădăcina câțiva pași la dreapta sau la stânga pentru a găsi un nod cu un Pk relativ mare Pe fig arată "rezonabilitatea" metodei propuse: dacă grafic c( , k - ) + c(k, rі) în funcție de k pentru datele KWIC (vezi Fig ), vom vedea că rezultatul este foarte sensibil la valoarea lui u O astfel de metodă de sus în jos poate fi folosită pentru n mare pentru a selecta o rădăcină și apoi a lucra cu subarborele din stânga și din dreapta Când se obține un subarbore suficient de mic, se poate aplica algoritmul K Metoda rezultată produce arbori buni (se pare că diferă de cei optimi cu - %), în timp ce necesită spațiu (rі) și timp de rulare - O(nlogn) unitati M Fredman a arătat că (n) unităţi de timp sunt de fapt suficiente utilizând structuri de date adecvate {STOC ( ), - ; vezi, de asemenea, K Mehlhorn, Data Structures and Algorithms (Springer, ), Secţiunea ) Arbori optimi și entropie Prețul minim este foarte aproape de un alt concept matematic numit entropie, care a fost introdus de Claude Shannon în celebra sa lucrare despre teoria informației {Bell System Tech J ( ), - , - ) Dacă p, p , • • •, Pn sunt probabilități și pi + p + ■ ■ ■ + pn = , definim entropia H(p!, p , • , Pn) ca -^(Pl,P , -,Pn) = • ( ) ti Pk Este intuitiv clar că, dacă are loc al-lea eveniment (cu probabilitate pk) din n posibil, obținem lg(l/p*) biți de informație (deci, un eveniment cu o probabilitate de k pk o egală cu jij ne oferă biți de informații) Prin urmare, H(pi, p , ■ ■ ■ , pn) este numărul aşteptat de biţi de informaţie atunci când are loc un eveniment aleatoriu Dacă pk = , atunci definim pk lg(l/p*) = , deoarece Ііт^о-b elg = А Igm = Un astfel de acord ne permite să folosim formula ( ) chiar și atunci când unele probabilități sunt egale cu zero Funcția xIg(l/a?) este concavă, adică derivata a doua, - /(a? n ), este negativă* Astfel, la u = p = pn - /n, maximul valoarea entropiei H(p^,p , ,pn), egală cu =lgn ( ) \n p p / În cazul general, când fixăm valorile lui u, , pn-k și permitem ca valorile lui , pn să se schimbe, inegalitățile sunt valabile k'' = H{p , ,pn^k,q) + qlgk, ( ) H{pi, ,pn-k,Pp-k+i,- ,Pp)> H{p!, ,pn-k,q, , , ) = H{p , ,pn-k,q), ( ) unde P/e avem eH C>H-PIe- ( ) Dovada Luați un arbore de cost binar C și atribuiți probabilități qk frunzelor sale Să adăugăm fiecărui nod intern câte o ramură de mijloc, pe care va fi plasată o frunză cu probabilitate p* Atunci C = ^ p(a), unde însumarea se realizează peste toate nodurile interne a ale arborelui ternar rezultat și conform Lemei E H = J p(a)H(a:) Entropia H(a) corespunde distribuției de probabilitate pentru trei evenimente, unde una dintre probabilități (în cazul în care a este un nod intern @) este egală cu pDp(a) În ex demonstrează că H{p,q,r) când p + q + r = Prin urmare, pentru toate x pozitive, inegalitatea I = ^p(a)H(a) H-Flgg, deoarece lg(l - y) | Inegalitatea ( ) poate să nu fie valabilă pentru valori de entropie extrem de mici; restricția la cazul H > P/e nu este prea strictă, deoarece valoarea entropiei este de obicei de ordinul lui Ign (vezi exercițiul ) Rețineți, de asemenea, că nicăieri în demonstrație nu este folosită ordinea nodurilor "de la stânga la dreapta"; astfel, limita inferioară ( ) este valabilă pentru toți arborii binari de căutare cu probabilități pentru nodurile interne pj și nodurile externe qk în orice ordine Calculele de entropie ne oferă, de asemenea, o limită superioară, care nu este mult diferită de ( ), chiar dacă rămânem la ordinea "de la stânga la dreapta" Teorema M În ipotezele teoremei B, inegalitatea C i are forma ots O/ b a - "*, *, pentru unele a*, /?* și , atunci nodul intern (T) corespunde căii a* Astfel copacul corespunde exemplului anterior După cum puteți vedea, arborele poate avea în continuare noduri interne fără nume; Să înlocuim fiecare dintre ele cu singurul său nod copil Prețul arborelui rezultat nu va depăși Pk (|a*: | + ) + £X=o ( : ) , obținem Pk ~* avem s* > sk-i + ~t~ și sk+i > sk + f ; astfel, (st*I , și, conform teoremei M, C qk+i > atunci în fiecare arbore optim lk qk+i și să considerăm un arbore în care lk > lk+i- Atunci |~fc~| trebuie să fie un nod copil drept, iar "fratele" său stâng L trebuie să fie un subarboresc de greutate c > w i Să înlocuim nodul părinte al lui ffc] cu subarborele L, iar nodul |fc+l | - un nod ale cărui noduri copil sunt [~fc~| și |fc+l I O astfel de înlocuire ar modifica costul total cu -c - qi;(lk ~ D+i - ) + W+i qk+i', în cazul u-i = u+i arborele optim a fost transformat într-un alt arbore optim În acest din urmă caz, succesiunea unor astfel de transformări va duce la lk qi+i pentru qk-i +qk- Apoi există un arbore optim în care lk-i = lk și oricare a) lj - lk - sau b) lj = lk şi |~J~| este nodul copil stâng Dovada Înlocuind "stânga" cu "dreapta" în Lema W, vom vedea că (ii) înseamnă existența unui arbore optim în care lk i > lk Totuși, Lema W și (i) înseamnă că li lk - Până în acest moment, nu am folosit niciodată ipoteza (iv) Dacă lj = Ік și [Y] nu este nodul copil stâng, atunci [J~] trebuie să fie "fratele" drept al nodului | j- Să înlocuim nodul lor părinte cu nodul | j- , apoi înlocuiți fiecare frunză cu |~G| foaia I d- pentru j q'i+ Pentru j qk-i + qk > Qj , unde lx este nivelul (x) și C este nivelul [~ ~| pentru j Іх Mai întâi înlocuim (r) Sh • • ■ Și cu B ■■■ Și (r); obținem I qk-i + qk- După aceea eliminăm qk~i și g , > , WT(Pi+i) pentru Wj) este îndeplinită (dacă această condiție este îndeplinită inițial, atunci nu este nevoie să executați subrutina C) Apoi setați t - t + și Pt - Xj G [Sfârșitul fazei ] Executați subrutina C de mai multe ori (posibil niciodată) până când t este egal cu G [Faza ] (Acum Pi = X n este rădăcina arborelui binar și WT(Pi) = w h-hwn ) Setați lk egal cu distanțele de la nodul X*, la nodul Рі pentru ) Setați m - m + , LLINK(Xm) - P*-i, RLINK(Xm) - Pfc, WT(Xm) - VT( Р * і) + WT(Pfc) SZ [Deplasați nodurile următoare la stânga ] Setați t - t - și apoi Pj+i - Pj pentru k și WTCPj-j) p > ■ ■ > pn Nu s-ar putea dovedi un astfel de arbore a fi semnificativ mai rău decât cel optim? [M ] Dacă p, q, r sunt probabilități alese aleatoriu astfel încât p + q + r = , care sunt probabilitățile ca arborii I, II, III, IV, V din ( ) să fie optimi? (Luați în considerare rapoartele ariilor zonelor corespunzătoare din Fig ) [MS ] Demonstrați că după pasul K al algoritmului K, r[r, j - ] nu depășește niciodată r[r+ , j], ► [M ] Găsiți arborele de căutare binar optim pentru cazul Ai = cu ponderi pi = , pr = p = ■ ■ • = P = , qo = qi = ■ ■ ■ = q-io = ( fără a utiliza computerul) [M ] Fie pn = qn = și toate celelalte greutăți să fie nenegative Demonstrați că arborele optim pentru (pi, , pn; qo, , qn) poate fi obținut prin înlocuirea în orice arbore optim pentru (рі, ,pn-i; qo, • • • ,gn-i) [M ] Fie A și B mulțimi nevide de numere reale Definim ca A h > ■ • ■ > Іm și constante reale = xo , unde relaţia , presupunând că relația este valabilă pentru j - r Folosiți ipoteza inductivă pentru a demonstra că există un arbore optim cu rădăcină (T) astfel încât [~n~| este situat la nivelul I', precum și un arbore optim cu rădăcină Țs) și nod [~n~| la nivelul / ) [ ] Utilizați un limbaj de macro pentru a defini o macro "căutare binară optimă" al cărei parametru este o specificație de arbore binar optim imbricat [^ ] Care este cel mai prost arbore de căutare binar posibil pentru cele de cuvinte englezești cele mai comune (aceste cuvinte sunt afișate împreună cu frecvențele lor în Figura )? Demonstrați că prețul arborilor de căutare binari optimi satisface "inegalitatea cadranului" pentru j > i + [M ] (K Ch Tan (K S Tap) ) Demonstrați că printre toate distribuțiile de probabilitate (рі, ,рп; sus, ■■■ ,Нп) (рі Ch- -Rp + doCh-b ?n = ) scump pentru pi = pentru toate r, gj = pentru toate j par și gj - /[n/ ] pentru toate j impare [M ] Fie p- = m -fc, unde oo tinde spre entropia H(pi,pi, ,pn)- [HM ] Completați demonstrația teoremei B demonstrând inegalitatea ( ) [HM ] (Claude Shannon) Fie X și Y variabile aleatoare care iau seturi finite de valori {z?i, ,xm} și {j/i, ,yn} - Să ne introduceți denumirile p, = Pr(A' = Xi), gj = Pr(Y = yj), Tij = Pr(A' = x, n Y = yj); în plus, presupunem că H(X) = H(p, ,pm) și H(Y) = H(d, ,dp) sunt entropiile lui X și Y separat, iar H(XY) = H(gc, ,gm) este entropia distribuției lor comune Demonstrează asta H(X) , |"lg(A+l)] pentru orice arbore binar Pentru a găsi valoarea maximă a lui h, luați în considerare problema din cealaltă parte și puneți întrebarea despre numărul minim de noduri dintr-un arbore echilibrat de înălțime h Fie un astfel de arbore cu cel mai mic număr posibil de noduri, atunci unul dintre subarborele rădăcinii, de exemplu, cel din stânga, are o înălțime h - , iar cel din dreapta - h - sau h - Deoarece arborele trebuie să aibă un număr minim de noduri, putem presupune că, datorită definiției, subarborele din stânga este un arbore \ i, iar subarborele din dreapta este Tl- Astfel, arborele Fibonacci are cel mai mic număr posibil de noduri dintre toți arborii echilibrați (vezi definiția arborilor Fibonacci în Secțiunea ) Prin urmare, N > Fh+ - > fk+ /u/b - iar rezultatul dorit se obține în același mod ca și corolarul Teoremei F | După cum se poate observa din demonstrarea teoremei, o căutare într-un arbore echilibrat va necesita mai mult de de comparații numai dacă arborele conține cel puțin * - = noduri Luați în considerare ce se întâmplă atunci când un nou nod este inserat într-un arbore echilibrat folosind algoritmul de inserare a arborelui T Arborele prezentat în fig rămâne echilibrat dacă noul nod ia locul lui [T|, |~ ], |~ ~|, p ~|, [îo] sau |Iz], dar în alte cazuri, va fi necesară o anumită ajustare Problemele încep când există un nod cu un factor de echilibru de + al cărui subarborele din dreapta devine mai înalt după inserare (sau, dacă factorul de echilibru este - , subarborele din stânga devine mai înalt) Este ușor de observat că necazurile apar doar în două cazuri (Alte două cazuri urâte pot fi derivate din cele indicate prin oglindire în jurul axei verticale ) În această diagramă, casetele mari a, / , , KEY(P), treceți la pasul A ; dacă K = KEY(P), căutarea are succes AZ [Mutați la stânga ] Setați Q KEY(P), setați B(P) TASTA (P) JE SUCCESS CI Ieșire la K = KEY(P) LD , (LLINK) Cl-S AZ Deplasați-vă la stânga Q KEY(P) STX O, (B) FI B(P) TASTA(S) A L J P DONE UI Ieșire când rI = -a J Z F Gl + Jl Salt dacă B(S) a fost ENT , G P • LINK(-aR) ST Ol(LLINK) HI LINK(а,P) R LD , (B) HI rI B(S) LDX T HI , sau a STX , (B) HI -►B(R) A L LDX Ol(RLINK) G A O singură tură STX (LLINK) G LINK(aS) • LINK(-aR) ST Ol(RLINK) H LINK(aP) o ^nhZn B (z) = z + z , B (z) = r - r - r -r , B (r) = r + r + r - ■ ■ ■ - r - r , și în general, Bh(z) pentru h > are forma Fh+ -izFh+ -i + Fh+^~' Lh^zFh+ - Fk-i (Această formulă generalizează teorema A ) Numărul total de arbori echilibrați de înălțime h este egal cu B^ = -VD ) și satisface relația de recurență Bo = Ві = , Bh+ = В% + BhBh-i, ( ) deci B = , B = ■ , B = ■ ■ , B = ■ • • ; în general Bn = A^A^ A^A^, ( ) unde Ao = K Ai - , A = , A = , A = , A$ = , , A^ = Ab-iBb-r - Secvențele B^ și Ah cresc foarte rapid - ca expozant al unui expozant; în ex arată că există un număr real Ѳ x , astfel încât ext = Kj - K~'J + K- ] - • ■ ■ + (-i)ft Kj ( ) Dacă presupunem că toți arborii Bh sunt la fel de probabili, atunci, așa cum se arată în Ex , numărul mediu de noduri dintr-un arbore de înălțime h este V;( )/VL( ) " ( , ) h - ( ) Aceasta înseamnă că înălțimea unui arbore echilibrat cu N noduri este de obicei mult mai apropiată de log N decât de log^N Din păcate, aceste rezultate nu sunt cu adevărat relevante pentru algoritmul A, deoarece mecanismul de construire a copacilor le face pe unele dintre ele mult mai probabile decât altele De exemplu, luați în considerare cazul când N = , unde există arbori echilibrați Sunt ! - de moduri posibile de a introduce chei în arbore În același timp, un copac "perfect" perfect echilibrat se dovedește de de ori Arborele Fibonacci se formează doar în de cazuri, iar un arbore asemănător acestuia va fi primit de ori Înlocuind subarborele din stânga din ( ) și ( ) cu arbori echilibrați arbitrar cu patru noduri și folosind o imagine în oglindă despre axa verticală, obținem arbori diferiți Opt dintre ele, obținute din ( ), apar de de ori fiecare, iar cele obținute din ( ) apar de ori fiecare În mod ciudat, copacii ( ) sunt mai des întâlniți decât ( ) Faptul că arborii perfect echilibrați se formează cu o probabilitate atât de mare și formula ( ) corespunzătoare cazului de probabilități egale, fac foarte plauzibil să se concluzioneze că pentru timpul mediu de căutare într-un arbore echilibrat, este necesar să se solicite aproximativ lg N + c comparații, unde c puține R W Floyd (RW Floyd) a constatat că coeficientul la Ig V nu este egal cu exact , deoarece atunci rădăcina arborelui ar trebui să fie foarte aproape de mediană, iar rădăcinile subarborilor - aproximativ sferturi Cu toate acestea, rotațiile simple și duble nu pot lăsa pur și simplu rădăcina copacului la mediană Studiile empirice au arătat că numărul mediu real de comparații necesare pentru a introduce un element N-ro este de aproximativ , lg V + , pentru N nu foarte mic Pentru a studia comportamentul fazelor de inserare și echilibrare ale algoritmului A, puteți clasifica nodurile exterioare ale arborelui B, așa cum se arată în Fig Calea care duce de la un nod extern este determinată de o succesiune de plusuri și minusuri ("+" pentru legătura din dreapta și pentru legătura din stânga) Mai întâi, scriem secvența până când se ajunge la primul nod cu diferit de zero Orez Clasificare care determină comportamentul algoritmului A după inserare de factorul de echilibrare sau (dacă nu există un astfel de nod) până când se ajunge la rădăcină Apoi adăugăm A sau B în funcție de dacă noul arbore după introducerea unui nod intern în acest loc va fi echilibrat Deci, drumul de sus de la [h"! este scris ca ++-B, ceea ce înseamnă "legătură dreaptă, legătură dreaptă, legătură stângă, dezechilibrat" O intrare care se termină cu A înseamnă că echilibrarea după inserarea unui nou nod nu este necesară, pentru o înregistrare, care se termină în ++B sau -B necesită o singură rotație, iar o înregistrare care se termină în +-B sau -+B necesită o rotație de ori Astfel, secvențele descrise oferă informațiile necesare despre timpul de rulare al pașilor A -A tabelul PROBABILITATI APROXIMATIVE PENTRU INTRODUCEȚI ELEMENTUL A-THE Lungimea traseului până la Fără ajustare O singură tură Dublă tură > Medie , Total Testele empirice cu numere aleatorii de ; vezi ex ) Rotirile simple și duble sunt aproape la fel de probabile la N rotiri duble sunt puțin mai puțin frecvente masa PROBABILITATI EXACTE LA INSERAREA ELEMENTULUI IO-LE Lungimea traseului până la Fără ajustare O singură tură Dublă tură / / / / / / / / / Medie / / / / Din Tabel arată că k Reprezentarea listelor liniare Acum, revenim la următorul punct de la începutul acestei secțiuni: arborii echilibrați pot fi folosiți pentru a reprezenta liste liniare în așa fel încât să puteți introduce rapid elemente în listă, depășind dificultățile asociate cu aranjarea secvențială a elementelor, permițând totodată acces aleatoriu la elementele listei, adică depășirea complexității plasării elementelor cuplate Ideea este de a introduce un nou câmp RANK la fiecare nod Acest câmp indică poziția relativă a unui nod în subarborele său, și anume unul plus numărul de noduri din subarborele său din stânga Pe fig arată valorile RANK pentru arborele binar prezentat în fig La prezentarea listelor, câmpul KEY poate fi omis complet (dacă se dorește, ambele câmpuri pot fi lăsate pentru a putea găsi elemente atât după valoarea cheii, cât și după poziția relativă în listă) Folosind un astfel de câmp RANK, putem reduce căutarea după poziţia elementului la o modificare a algoritmilor pe care i-am studiat deja Algoritmul B (Căutare în arbore după poziţia elementului) Dată o listă liniară, reprezentată ca un arbore binar Algoritmul face posibilă găsirea elementului fc al listei (al-lea nod fc al arborelui în ordine simetrică) dat k Se presupune că Orez Câmpuri RANK pentru căutarea după poziţia elementului din listă că, ca și în algoritmul A, există un nod principal și că nodurile arborescente au câmpuri LLINK și RLINK, precum și câmpul RANK descris VI [Inițializare ] Setați M h - k, P h - RLINK(HEAD) LA [Comparație ] Dacă P = A, algoritmul eșuează (acest lucru se poate întâmpla numai dacă k a fost mai mare decât numărul de noduri din arbore, sau k RANK(P), treceți la pasul B ; dacă M = RANK(P), algoritmul reușește (P indică către k-lea nod) VZ [Mutați la stânga ] Alocați P RANK(P), setați B(P) înălțime (L ) (celălalt caz este tratat în mod similar) Să scoatem primul nod din L , numindu-l nodul de andocare J Fie L' să desemnăm arborele rezultat L \ {J} După aceea, coborâm arborii din dreapta Li până ajungem la un nod P astfel încât înălțime(P) - înălțime^) = sau Acest lucru este întotdeauna posibil, deoarece atunci când coborâți un nivel, înălțimea se modifică cu sau Acum înlocuiți \P) cu și continuați să ajustați Li ca și cum un nou nod J tocmai ar fi fost inserat folosind algoritmul A Crane a rezolvat, de asemenea, problema inversă mai dificilă a împărțirii listei în două părți care ar da arborele original atunci când este concatenată Luați în considerare, de exemplu, problema partiționării listei prezentate în Fig pentru a obține două liste, una care conține {A, ,I} și cealaltă care conține {J, ,Q} Acest lucru necesită o rearanjare semnificativă a copacilor În general, atunci când este necesară împărțirea unui arbore la un nod dat P, calea către P va fi similară cu calea prezentată în Fig Este necesar să construiți un arbore din stânga care să conțină nodurile ai, Pi, at, Pi, ag, Pg, aj, Pj, a, P într-o ordine simetrică și un arbore din dreapta care conține P, Pg, Pg, P , Pb, P , Ps, P , Ps- Acest lucru se poate face folosind o succesiune de concatenări: mai întâi inserați P în dreapta lui a, apoi conectați P cu Pg folosind Pg ca nod de andocare, conectați qț cu aP (nodul de andocare - P ), "b cu a- jP-jaP (nodul de andocare - Pg), pPgPg cu Pg (nodul de andocare - P ), etc Nodurile Pg, P?, , Pi pe drumul către P sunt folosite ca noduri de andocare Kerin a demonstrat că un astfel de algoritm de partiționare necesită O(logTV) unități de timp pentru un arbore inițial cu N noduri, deoarece concatenarea folosind un nod de andocare dat necesită O(k) pași, unde k este diferența de înălțimi a arborilor concatenați, iar valorile lui k formează o progresie geometrică Toți acești algoritmi pot fi utilizați fie cu câmpurile KEY, fie cu câmpurile RANK (sau ambele), deși în cazul concatenării cheilor, toate cheile din arbore trebuie să fie mai mari decât cheile din arborele L\ În scopuri generale, este adesea preferabil să se utilizeze arbori cu trei legături, care, împreună cu câmpurile LLINK și RLINK, utilizează câmpul UP, care indică nodul părinte, și un câmp de un bit care indică dacă acest nod este un nod stâng sau copilul drept Astfel de arbori simplifică algoritmii utilizați și vă permit să determinați nodul fără a specifica în mod explicit calea către acesta Se poate scrie o subrutină pentru a elimina nodul NODE(P) dat P, se poate elimina nodul după NODE(P) în ordine simetrică pentru a găsi lista care conține NODE(P) și așa mai departe În algoritmul de eliminare pentru arbori cu trei legături nu este nevoie să construiți o listă ( ), deoarece legăturile UP oferă toate informațiile necesare Desigur, atunci când inserați, ștergeți sau rotiți în astfel de arbori, este nevoie de puțin mai mult efort pentru a schimba link-urile Folosirea copacilor "tri-conectați" în loc de copaci dublu conectați este similară cu utilizarea copacilor dublu conectați în loc de cele unice: puteți începe de oriunde și puteți deplasa atât înainte, cât și înapoi Pentru o descriere completă a algoritmilor bazați pe arbori tri-conectați, a se vedea disertația lui Crane (Universitatea Stanford, ) Alternative la arbori AVL Pe lângă utilizarea arborilor AVL, au fost propuse alte câteva abordări de organizare a arborilor care garantează timpi de acces logaritmici De exemplu, C C Foster [CACM ( ), - ] au considerat arbori binari, care se obțin prin limitarea diferenței de înălțime a subarborilor la o anumită valoare k Astfel de structuri se numesc HB (k) (care înseamnă "înălțime- echilibrat" - "echilibrat în înălțime") În acești termeni, arborii considerați echilibrați sunt un caz special de HB( ) Un concept interesant de arbori echilibrați în greutate a fost studiat de J Nievergelt, E Reingold și C K Wong Ei nu au luat în considerare înălțimea copacilor, ci au stabilit o condiție pe care subarborele tuturor nodurilor trebuie să o îndeplinească: ^ oo [НМ ] Care este numărul asimptotic de arbori binari echilibrați cu m noduri interne Ș h>o Bnh'- ► [ ] (R C Richards ) Arătați că un arbore echilibrat poate fi construit în mod unic din lista factorilor săi de echilibru B ( )B ( ) B (IV) într-un okay simetric [M ] (Mark R Brown) Demonstrați că pentru n > numărul mediu de noduri externe de fiecare tip este +A, -A, ++B, +-B, -+B, -B este exact ( m + )/ pentru arbori echilibrați aleatori cu r noduri interne construite conform algoritmului A ► [ ] Care este timpul maxim de rulare posibil al programului A la introducerea celui de-al optulea nod într-un arbore echilibrat? Care este timpul minim pentru acest caz? [ ] De ce este mai bine să folosiți câmpul RANK așa cum este indicat în text, decât să stocați indexul fiecărui nod ca cheie (numind primul nod " ", al doilea " ", etc )? [ ] Pot fi adaptați algoritmii T și D pentru a opera pe liste liniare folosind câmpul RANK, așa cum sa făcut pentru algoritmii de arbore echilibrat? [ ] (K A Crane (S A Crane) ) Să presupunem că o listă liniară ordonată este reprezentată ca un arbore binar cu câmpurile KEY și RANK la fiecare nod Dezvoltați un algoritm care caută în arbore o anumită cheie K și determină poziția acesteia în listă, adică găsește un număr m astfel încât numai m - cheile să fie mai mici decât K ► [ ] Desenați un arbore echilibrat, care se obține după îndepărtarea nodului E și a nodului rădăcină F din arborele prezentat în fig folosind algoritmul propus în text ► [ ] Desenați arborele echilibrat care rezultă din concatenarea arborelui Fibonacci ( ): (a) la dreapta și (b) la stânga arborelui prezentat în fig folosind algoritmul de concatenare sugerat în text [ââ] Desenați arborii echilibrați care rezultă din despicarea arborelui prezentat în fig în două părți ({A, , } și {J, , Q}) folosind algoritmul propus în text [ ] Găsiți o modalitate de a transforma acest arbore echilibrat, astfel încât factorul de echilibru la rădăcină să nu fie - În acest caz, ordinea simetrică a nodurilor trebuie păstrată și arborele echilibrat dorit trebuie generat în unități de timp ( ), indiferent de numărul de noduri din arborele original [^ ] Luați în considerare ideea de a utiliza o clasă limitată de arbori echilibrați cu factori de echilibru egali cu sau + (caz în care câmpul B poate fi redus la un bit) Există o procedură de inserare cu o eficiență rezonabilă pentru astfel de arbori? [ ] (Echilibrare perfectă ') Dezvoltați un algoritm pentru construirea arborilor binari cu N noduri care sunt optime în sensul ex Trebuie să ruleze în pași O(LG) și să fie "secvențial", adică trebuie să obțineți noduri pe rând în ordine crescătoare și să construiți arbori parțiali pe parcurs, fără a cunoaște valoarea finală a lui N (un astfel de algoritm poate fi util pentru rearanjarea unui arbore prost echilibrat sau atunci când doi copaci sunt îmbinați într-unul singur) [M ] Care este analogul teoremei A pentru arborii echilibrați ponderați? [M ] (E Reingold) Arătați că nu există o relație simplă între arborii echilibrați pe înălțime și cu greutatea echilibrată a) Demonstrați că există arbori echilibrați pe înălțime cu un raport arbitrar mic (greutatea subarborelui din stânga)/(greutatea subarborelui din dreapta) în sensul ( ) b) Demonstrați că există arbori echilibrați ponderați cu o diferență arbitrar de mare între înălțimile subarborilor din stânga și din dreapta [M ] (E Reinhold ) Demonstrați că dacă condiția ( ) este întărită la greutate rămasă greutate corectă atunci numai arbori binari perfect echilibrați cu n - noduri interne îl vor satisface (În astfel de copaci, greutățile din stânga și din dreapta la fiecare nod sunt egale ) [ ] (J Nievergelt, E Reinhold și C Wong) peste O(log /V) rotații per inserție [/$] Explorați proprietățile arborilor t-ari echilibrați pentru t > [M ] Estimați numărul maxim de comparații necesare pentru a căuta un arbore - cu noduri interne U [/ ] Implementați algoritmi cu - arbori în mod programatic, cu suficientă eficiență [MJ ] Analizați comportamentul a - arbori în medie cu inserții aleatorii [ ] (E McCreight) Secțiunea a discutat o serie de strategii pentru alocarea dinamică a memoriei, inclusiv metoda celei mai bune potriviri (alegerea celei mai mici regiuni care satisface interogarea) și metoda primului potrivire (first-fit) ) (selectarea regiunii cu cea mai mică adresă care satisface interogarea) Arătați că, dacă spațiul liber este conectat într-un arbore echilibrat, atunci acesta poate fi găsit ca (a) cea mai bună potrivire și (b) prima zonă de potrivire în unități de timp O(logn), unde n este numărul de zone disponibile (algoritmii din Secțiunea completează sarcina în O(n) pași) [ ] (M L Fredman, ) Gândiți-vă la o reprezentare de listă liniară astfel încât inserarea unui nou element între pozițiile m - și m, dat m, necesită O(logm) unități de timp [M ] Dați doi arbori binari cu n noduri, T și T' Spunem că T - Cei - arbori descriși în Secțiunea sunt arbori B de ordinul (Bayer și McCraith au considerat doar m impar; unii autori, vorbind de arbori B de ordinul m, înțeleg prin ei ceea ce am numi un arbore de ordin m + ) Un nod care conține j chei și j + pointer poate fi reprezentat ca Pl,K ,P , ,Pj ( ) unde Ki Gt/ '~x Cu alte cuvinte, G V+ Z (vezi exercițiul ) Donald R Morrison [JACM ( ), - ] a descoperit o modalitate foarte atractivă de a construi arbori de căutare cu N-noduri bazate pe o reprezentare binară a cheilor fără a fi nevoie să le stocheze în noduri Această metodă, numită "Patricia" (Patricia - Practicai Algorithm To Retrieve Information Coded In Alphanumeric), este foarte potrivită pentru lucrul cu chei mari cu lungime variabilă, cum ar fi titluri sau fraze stocate într-un fișier mare Un algoritm similar a fost publicat simultan în Germania (G Gwehenberger, Elektronische Rechenanlagen ( ), - ) Principalul punct al metodei "Patricia" este de a construi un arbore binar fără ramuri cu o singură cale prin includerea în fiecare nod a numărului de biți care pot fi săriți înainte de a trece la următorul test Există mai multe moduri de a implementa această idee; poate cea mai simplă dintre ele este prezentată în Fig Există o serie de biți TEXT (de obicei destul de lungi) care pot fi stocați într-un fișier extern cu acces aleatoriu, deoarece TEXTul este accesat o singură dată la fiecare căutare Fiecare cheie care urmează să fie stocată în tabelul nostru este determinată de locul în care începe în text; se poate considera că merge de la locul începutului său până la sfârşitul textului (Metoda Patricia nu caută o potrivire exactă între cheie și argument; în schimb, determină dacă există o cheie care începe cu argumentul ) În situația prezentată în fig , există șapte chei care încep cu fiecare cuvânt din text, și anume, "ASTA ESTE CASA CARE A CONSTRUIT-O JACK?", "Este CASA PE CARE JACK A CONSTRUIT-O?" , "CONSTRUIT?" Există o limitare importantă: nicio cheie nu poate fi începutul alteia Se execută dacă textul se termină cu un caracter special de final de text (în cazul nostru, este "?"), care nu apare nicăieri în text Aceeași constrângere este aplicată implicit în schema de fascicule a algoritmului T, în care cuvântul terminator este "și" în secțiunea ) Este format dintr-un antet și N - noduri; nodurile au mai multe câmpuri CHEIE, indicator către text Acest câmp trebuie să aibă cel puțin lg C biți dacă textul conține caractere C Pe fig de cuvinte afișate în interior ACEASTĂ CONSTRUCȚIE DE JACK? K antet Orez Un exemplu de text și arborele metodei "Patricia" fiecare nod este reprezentat de fapt prin pointeri către text, de exemplu, în loc de (LASK), nodul conține numărul , care indică poziția de pornire a LASK BUILT? într-o linie de text LLINK și RLINK, legături într-un arbore Lungimea acestor câmpuri trebuie să fie de cel puțin lg N biți LTAG și RTAG, câmpuri de un bit care indică dacă LLINK și RLINK sunt legături către nodurile copil sau, respectiv, părinte ale acestui nod Liniile punctate din fig corespund indicatorilor ai căror biți TAG sunt SKIP, un număr care specifică câți biți ar trebui săriți în căutare (după cum sa explicat mai devreme) Acest câmp trebuie să fie suficient de mare pentru a stoca cel mai mare număr k pentru care există subșiruri potrivite de k biți în două chei diferite De obicei, în practică, puteți presupune că k nu este prea mare și raportați o eroare dacă dimensiunea câmpului SKIP este depășită Pe fig Cele de câmpuri SKIP sunt afișate ca numere în noduri Antetul conține numai câmpurile KEY, LLINK și LTAG Căutarea în arborele metodei "Patricia" se efectuează după cum urmează Să presupunem că trebuie să găsiți cuvântul THE (reprezentarea sa de biți este ) Începem să ne uităm la câmpul SKIP din nodul rădăcină a, care indică faptul că primul bit al argumentului ar trebui verificat Acest bit este , așa că trebuie să ne deplasăm la dreapta Câmpul SKIP al următorului nod, , indică faptul că + = al -lea bit al argumentului ar trebui acum luat în considerare Este , deci ne deplasăm spre stânga Câmpul SKIP al următorului nod, e, ne obligă să privim bitul ( + ), care este Găsim că RTAG = , așa că ar trebui să revenim la nodul , care ne trimite la matricea TEXT Aceeași cale de căutare va fi obținută pentru orice argument a cărui mască de biți este egală cu ІххххххххххОІ și este necesar să se verifice dacă argumentul nu se potrivește cu o cheie unică care începe cu această mască, și anume THE Să presupunem, pe de altă parte, că trebuie să găsim o cheie care începe cu TH (sau toate aceste chei) Procesul de căutare începe în același mod ca cel descris mai sus, dar în cele din urmă vom încerca să accesăm al doisprezecelea bit inexistent al argumentului pe zece biți Acum trebuie să comparăm argumentul cu fragmentul matricei TEXT definit în nodul curent (în cazul nostru, nodul ) Dacă nu există potrivire, atunci argumentul nu începe cu nicio cheie; dacă există o potrivire, atunci argumentul este începutul oricărei chei indicate de liniile punctate care ies din nodul și descendenții acestuia (și anume, ACESTĂ, AȚELA, ASTA) Mai precis, procesul poate fi descris după cum urmează Algoritmul P ("Patricia") Dată o serie de TEXT și un arbore cu câmpurile KEY, LLINK, RLINK, LTAG, RTAG și SKIP descrise mai sus Algoritmul determină dacă tabloul TEXT conține o cheie care începe cu un argument K (Dacă există r > astfel de chei, în pașii O(r) este posibil să se găsească secvențial locația fiecăreia dintre ele; vezi Exercițiul ) Se presupune că există cel puțin o cheie RI [Inițializare ] Setați P n, mergeți la pasul Pb P [Verificare biți ] (În acest moment, se știe că, dacă primii j - biți ai argumentului se potrivesc cu o cheie, atunci se potrivesc cu cheia începând cu KEY(P)) Dacă al-lea bit al argumentului este , mergeți la pasul P ; în caz contrar, treceți la pasul P P [Mutați la dreapta ] Atribuiți Q la P și P avem Nu ki + +kM = N M ' n -și AkMY pentru că LG! M~N/kA • • km' este probabilitatea ca cheile fci să fie în prima subrază, , km în Mth Acest raport poate fi rescris ca An= +M -JV = + M N\ kA- km\) kі N-kAk pentru N > ( ) folosind simetria și însumarea peste A'r- , km- În mod similar, dacă Cdr indică numărul total mediu de verificări de biți necesare pentru a căuta toate N cheile din fascicul, atunci Co = Ci = și CN = N + M ~N\ (!!\Ml)N-kCk pentru V> \ LA / În ex arată cum se lucrează cu acest tip de relații de recurență, iar în ex - este dată teoria corespunzătoare a razelor aleatorii [dintr-un punct de vedere diferit, analiza lui Adz a fost efectuată pentru prima dată în lucrarea lui LR Johnson, M H McAndrew, IBM J Res si Devei ( ), - , în legătură cu un algoritm de sortare echivalent hardware-specific] Dacă ne întoarcem acum la studiul arborilor de căutare digitale, constatăm că formulele sunt similare, dar nu atât de mult încât să se poată determina cu ușurință comportamentul asimptotic De exemplu, dacă Cn indică numărul total mediu de verificări de biți atunci când se caută toate N cheile într-un arbore de căutare digital M-ary, este ușor de dedus, ca mai înainte, că Co = Ci = și pentru N > ( ) Această expresie este aproape identică cu expresia ( ), dar apariția lui N + în loc de N în partea stângă a ecuației este suficientă pentru a schimba radical natura recurenței și, prin urmare, metodele utilizate în studiul ( ) devin inacceptabil Luați în considerare prima căutare digitală binară Pe fig prezintă un arbore de căutare digitală corespunzător celor șaisprezece taste din fig dacă ei sunt inserate în ordinea folosită în exemplele din capitolul Dacă s-ar determina numărul mediu de verificări de biți pentru o căutare aleatorie reușită, s-ar dovedi a fi doar lungimea căii interne a arborelui împărțită la N, de la găsirea un nod la nivel pe care mi-ar cere să verific Rețineți, totuși, că numărul mediu de verificări ale unei căutări aleatorii eșuate nu este atât de ușor legat de lungimea căii exterioare a arborelui, deoarece o căutare eșuată este mai probabil să se termine la un nod exterior aproape de rădăcină Astfel, probabilitatea de a ajunge la ramura stângă a nodului din Fig este egal cu | (când se iau în considerare cheile cu precizie infinită), iar probabilitatea de a intra în ramura stângă a nodului este doar Din acest motiv, arborii de căutare digitale cu distribuție uniformă a cheilor sunt în general mai bine echilibrați decât arborii de căutare binari de la algoritmul T Orez Arborele de căutare digitală aleatoriu construit folosind algoritmul D O funcție de generare poate fi utilizată pentru a descrie caracteristicile relevante ale arborilor de căutare digitale Să existe noduri interne la nivelul I Se consideră funcția generatoare a(z) = Yliaizl• Să presupunem că funcția generatoare corespunzătoare Fig , - a(z) = + z + z + z + r Dacă există bі noduri externe la nivelul I și b(z) = atunci conform ex - obținem b(z) - + ( z - l)a(z) ( ) De exemplu, + ( z - )( + z + r + z + z ) = z + r + r Numărul mediu de verificări de biți pentru o căutare aleatorie reușită este a'( )/a( ), deoarece a'( ) este lungimea căii interne a arborelui și a( ) este numărul de noduri interne Numărul mediu de verificări de biți la o căutare aleatorie eșuată este D ; r = | '(|) = "(|)>, deoarece ajungem la acest nod extern de nivel I cu o probabilitate de ~ Numărul de comparații este același cu numărul de verificări de biți (plus dacă căutarea a avut succes) De exemplu, în fig o căutare reușită va efectua o medie de verificări de ^ biți și comparații de '~, în timp ce o căutare eșuată va fi ambele de | Notăm cu n(z) funcția a(z) mediată pe toți arborii cu N noduri; cu alte cuvinte, este suma lui rt"t(-r) peste toate binarele N arbori de căutare T cu N noduri interne, unde ar(z) este funcția generatoare pentru nodurile interne ale arborelui T și pm este probabilitatea ca T să fie generat prin inserarea N numere aleatoare conform algoritmului D Apoi, numărul mediu de verificări de biți va fi egal cu g 'N(l)/N pentru succes și + j= De exemplu, ( ) = + b(r - ) + (r - )(|r - ) + (r - )(|r - ) (|r - ) Aceste formule ne permit să exprimăm cantitățile necesare ca sume de produse: cn = o + j=l N|) = Z (A ) ft( ~ - !) = ^+ - Cn ( ) k>o "t" j=l Nu este deloc evident că aceste formule pentru satisface ( )! Din păcate, aceste expresii nu sunt potrivite pentru calcule sau căutarea dependențelor asimptotice, deoarece "-' - este negativ; vom deveni mari membri, dintre care mulți se vor micșora O formulă mai utilă pentru Cn poate fi obținută prin aplicarea identităților din Ex - : cN=( П( - -')} £ (£ + )(- )* № - \j> / k> "G r>o / \ / T \ T \ m = ( П(і - ->) Е ( )(- )* Е ( ^' Г ІВ - -Т 'J> ' fc> m> r=l = E m(E ~ + ~tLC m> fc ' La prima vedere, nu există nicio îmbunătățire față de ( ), dar un avantaj foarte mare al rezultatului obținut este că suma peste m converge destul de repede pentru orice n fix O situație similară apare și în cazul unei raze din formulele - ( ) și -( ): într-adevăr, luând în considerare numai termenii cu n = , ( ) rezultă exact N - plus numărul de verificări de biți din fasciculul binar Acum puteți obține valoarea asimptotică în același mod ca înainte (vezi exercițiul ) [Această derivație se bazează în mare măsură pe abordarea propusă de A J Konheim, DJ Newman, Discrete Mathematics ( ), - ] Orez Arborele care este construit de algoritmul "Patricia" în locul razei prezentate în fig În sfârșit, să aruncăm o privire "matematică" asupra metodei "Patrician" Într-un astfel de caz, arborele binar este similar cu raza corespunzătoare cu aceleași chei, dar strânse împreună (câmpurile SKIP permit eliminarea ramurilor unidirecționale), astfel încât să existe întotdeauna exact N - noduri interne și N noduri externe Pe fig prezintă arborele metodei "Patricia" corespunzător celor șaisprezece chei ale grinzii prezentate în fig Numărul afișat la fiecare nod de ramură este valoarea SKIP; cheile sunt situate la nodurile exterioare, deși nu sunt prezente în mod explicit în arbore (de fapt, în locul fiecărui nod exterior există o referință la un nod interior, care, la rândul său, se referă la matricea TEXT) Cu toate acestea, în scopul analizei, vom presupune că nodurile externe au exact această formă, așa cum se arată în figură Deoarece o căutare reușită folosind metoda Patricia se termină la noduri externe, numărul mediu de verificări de biți efectuate la o căutare aleatorie reușită va fi egal cu lungimea căii externe împărțită la N Dacă formăm, ca mai înainte, funcția generatoare b (z) pentru nodurile externe, atunci această valoare poate fi reprezentată ca '( )/ ( ) O căutare nereușită folosind metoda "Patricia" ajunge, de asemenea, într-un nod extern de nivel I cu o probabilitate de ~ , deci numărul mediu de verificări de biți este |^(|) De exemplu, pentru cazul prezentat în fig , avem b(z) = z + z + z + z ; astfel, numărul mediu de verificări de biți pentru o căutare reușită este de | iar dacă nu reușește - || Notați cu hn(z) funcția generatoare "medie" (z), adică funcția mediată pe toți arborii metodei "Patricia" cu n noduri externe și chei distribuite uniform Relație recurentă M ) = Nz)( + ; ao = ai = O ( ) (aici un - |Ap(|)) - Această relație nu este asemănătoare cu niciuna dintre relațiile recurente considerate mai sus și nu se reduce la ele în mai multe sau într-un mod mai puțin simplu Totuși, teoria transformărilor Mellin, prezentată în Secțiunea , face posibilă lucrarea cu astfel de relații de recurență Se pare că soluția ( ) conține numere Bernoulli: pap-i h - y / p \ Bk ", oA - p + = DFor(tm)> - ( ) k= Această formulă este probabil cea mai greu nucă asimptotică de spart din această carte Soluția prezentată în ex este o prezentare generală instructivă a multor probleme întâlnite anterior (cu unele nuanțe) Rezultatele analizei Următoarele rezultate ale calculelor matematice complexe din această secțiune merită o atenție specială a) Numărul de noduri necesare pentru a stoca N chei aleatorii într-o rază Af-ary cu furcături care se opresc atunci când sunt atinse subfișiere de , folosind transformări binomiale, generalizând metoda ex - ? [M J] Folosind rezultatul ex , exprimați soluțiile ecuațiilor ( ) și ( ) prin funcțiile [ p și Vp, similare celor definite în exercițiu - [HM ] Găsiți valoarea asimptotică a funcției cu precizie ( ) ca n -> oo pentru valori fixe ale lui s > și m > [Cazul pentru s = a fost considerat în Ex - , iar cazul pentru s = , m = - în ex - ] ► [MLO] Luați în considerare o memorie M-ary "rază" care utilizează o căutare secvențială la atingerea unui subarboresc de sau mai puține raze (algoritmul T este un caz special când s = ) Aplicați rezultatele exercițiilor anterioare pentru analiză a) numărul mediu de noduri ale fasciculului; b) numărul mediu de verificări de cifre sau caractere pentru o căutare reușită; c) numărul mediu de comparații efectuate la o căutare reușită Formulați răspunsurile la întrebări sub formă de formule asimptotice ca N -> oo pentru Miya fix; răspunsul pentru (a) trebuie dat până la ( ), iar pentru (b) și (c) până la O( V ) [Pentru M = , această analiză se aplică unei metode de sortare pe bază de schimb modificată în care subfișierele cu dimensiunea Luați în considerare cazul atât al căutărilor reușite, cât și al celor nereușite; dați un răspuns precis la ( V ) [HM ] Care este media asimptotică a numărului de noduri dintr-un arbore de căutare digital M-ary ale cărui legături sunt toate goale? (Memoria ar putea fi salvată prin excluderea unor astfel de noduri; vezi exercițiul ) [M J] Arătați că funcția generatoare a algoritmului patrician /in(r) definită în ( ) poate fi exprimată într-o formă complet teribilă: Em / V ( P - \ \ Z \ , \ai, , am ( "i - )( ai+a - ) ( "i+ •+"'"- ) / m> \ai / l , , a m > (Astfel, dacă ar exista o formulă simplă pentru /in(r), această expresie greoaie ar putea fi simplificată ) [M J] Rezolvați relația de recurență ( ) [M J] Care este valoarea medie a sumei tuturor câmpurilor SKIP dintr-un arbore aleatoriu al algoritmului Patrician cu N - noduri interne? [MLO] Demonstrați că ( ) este o soluție a relației de recurență ( ) [Indicaţie Luați în considerare funcția generatoare [HM ] Scopul acestui exercițiu este de a găsi comportamentul asimptotic al formulei ( ) a) Demonstrați că pentru n > y- /n\ Bk = y' f ln~ + n- + - + ( J'-l)n- > \ n \kJ k~ -l R"- ) n+ / ' b) Să se arate că termenii din partea dreaptă a lui (a) sunt aproximativ egali cu /(ex - ) - I/xA / , unde x = n/ J ; suma rezultată diferă de cea inițială prin O(n − ) c) Arată că ex- unsprezece x ^(z)P(z)x Zdz pentru x real > d) Prin urmare, suma în cauză este Estimați această integrală ► [M ] Care este probabilitatea ca arborele algoritmului patrician cu cinci chei să aibă forma iar câmpurile SKIP conțin a, b, c, d, așa cum se arată în figură? (Presumăm că cheile au biți aleatori independenți; răspunsul ar trebui să fie o funcție de a, b, c și d ) [M ] Există cinci arbori binari cu câte trei noduri interne Dacă luăm în considerare cât de des fiecare dintre ele servește ca arbore de căutare în diverși algoritmi cu date aleatorii, atunci obținem următoarele probabilități diferite Căutare în arbore (algoritmul T) Căutare digitală în arbore (algoritmul D) Metoda "Patricia" (algoritmul P) (Rețineți că arborele de căutare digitală va fi echilibrat mai des decât altele ) În ex b - formula probabilităţii în cazul căutării arborelui este dată: Găsiți formule similare pentru probabilitatea în cazul (a) al algoritmului D și (b) al algoritmului P [M : ] Să considerăm un arbore binar al cărui nivel I are li noduri externe S-a subliniat în text că timpul de căutare nereușită în arborele de căutare digitală nu este direct legat de lungimea căii externe £ ІЪi, ci este proporțional cu lungimea modificată a căii externe ^Tlbi ~l Demonstrați sau infirmați următoarea afirmație: dintre toți arborii cu N noduri externe, arborele cu toate nodurile externe situate la cel mult două niveluri adiacente are lungimea traseului extern cel mai puțin modificată (vezi exercițiul - ) [MJO] Dezvoltați un algoritm pentru a găsi un arbore cu n noduri care are o valoare minimă de a - (lungimea căii interne)-!-/? - (lungimea modificată a traseului extern), unde a și ( sunt niște numere (vezi exercițiul ) [MJ ] Dezvoltați un algoritm pentru găsirea arborilor optimi de căutare digitală similar arborilor optimi de căutare binare discutați în Secțiunea [ ] Fie aoai ■ ■ ■ o succesiune binară periodică în care aw+k - ak pentru toate k > Să se arate că orice succesiune fixă de acest tip poate fi reprezentată în celulele de memorie O(IV) într-un astfel de astfel încât următoarea operație să poată fi efectuată în pași O(LG) Pentru un șir dat de biți bobi bn-i, determinați de câte ori apare într-o perioadă (adică, aflați câte valori ale lui p există pentru care k), și nu aparține lui H; în caz contrar, repetăm procesul cu o nouă valoare a Finitudinea acestui algoritm rezultă din proprietatea Nielsen Dacă a este redus la șirul gol, se poate recupera reprezentarea originală a lui a ca produse ale lui Ѳ De exemplu, fie {#i,# ,#z} = {bbb, b~a~b~, ba~b} și a = bbabaab pădure împreună cu algoritmul descris ne permite să deducem că a = ѲіѲ ѲіѲ Ѳ? ■ Implementați acest algoritm folosind programul dvs ca intrare [ ] (Comprimare față și spate ) Dacă multe chei binare sunt folosite ca index pentru a împărți un fișier mare, este posibil ca cheile complete să nu fie stocate De exemplu, cele taste prezentate în Fig , poate fi trunchiat pe dreapta astfel încât au rămas suficiente cifre pentru a le identifica în mod unic: , , , , , , Astfel de chei trunchiate pot fi folosite pentru a împărți un fișier în părți și, de exemplu, a cincea parte poate conține toate cheile care încep cu OOP sau , iar în ultima parte - cheile care încep cu , sau Cheile trunchiate pot fi reprezentate într-o formă mai compactă prin omiterea tuturor cifrelor de început care se potrivesc cu cifrele cheii anterioare: , oooi, ooIOO, ooool, o , , oooool Bitul care urmează caracterului "o" este întotdeauna , deci poate fi, de asemenea, omis Un fișier mare va conține multe caractere "o" și trebuie doar să stocăm numărul acestora și valorile biților următori Arătați că numărul total de biți din fișierul comprimat, cu caracterele "o" excluse și urmate de un bit, este întotdeauna egal cu numărul de noduri din calea binară cu aceste chei (Prin urmare, numărul total mediu de astfel de biți în întregul indice este de aproximativ V/In , , biți per cheie Această metodă de compresie a fost arătată autorului de A Heller și R L Johnsen (RL Johnsen) contracție suplimentară, deoarece avem nevoie doar de o reprezentare a structurii grinzii, vezi Teorema IA ) Analizați înălțimea unei raze M-ary aleatoare cu N taste și parametru de decupare s, ca în ex (când s = , această valoare este lungimea celui mai lung prefix comun al cuvintelor aleatorii de lungime N din alfabetul M-ary) ► [ ] (JL Bentley și R Sedgewick) legătura corespunde ramificației care coboară ► [M ] Dacă cele șapte taste prezentate în fig sunt inserate în ordine aleatorie folosind algoritmul descris în exercițiu , care este probabilitatea de a obține arborele afișat? HASHING Până acum, am analizat metodele de căutare bazate pe compararea unui argument K dat cu cheile dintr-un tabel sau folosind cifrele acestuia pentru a controla procesul de ramificare A treia modalitate este de a abandona căutarea datelor și de a efectua operații aritmetice pe K, permițându-vă să calculați o funcție f(K) Acesta din urmă va indica adresa în tabel în care sunt stocate K și informațiile aferente De exemplu, luați în considerare binecunoscutul set de de cuvinte englezești, care a fost prezentat în Secțiunile și În tabel Figura prezintă un mic program MIX care one-to-one convertește de taste în numere f(K) între - și Dacă comparăm această metodă cu programele MIX pentru alte metode luate în considerare (de exemplu, pentru căutare binară, arbore optim căutare, căutare "ray", căutare digitală în arbore), veți constata că noua metodă este superioară celor vechi atât din punct de vedere al vitezei, cât și din punct de vedere al cantității de memorie folosită (cu excepția căutării binare, care necesită puțin mai puțină memorie) Într-adevăr, timpul mediu al unei căutări reușite folosind programul din Table are aproximativ , w și necesită un tabel de de elemente pentru a stoca de chei Din păcate, căutarea unor astfel de funcții f(K) este o sarcină destul de dificilă Există funcții posibile și IO care mapează un set de de elemente la un set de de elemente; totuși, doar • • = / ! și IO dintre ele dau valori diferite pentru diferite argumente; prin urmare, doar una din zece milioane de funcții este potrivită pentru a ne atinge obiectivul Funcțiile care dau valori care nu se repetă sunt surprinzător de rare (chiar și pentru tabele mari) De exemplu, conform celebrului "paradox al zilei de naștere", se dovedește că, într-o companie de de persoane, este mai probabil ca doi dintre ei să aibă aceeași zi de naștere decât ca fiecare să aibă zile de naștere diferite Cu alte cuvinte, dacă alegem o funcție aleatorie care mapează de chei la un tabel de dimensiunea , probabilitatea ca două chei să nu se mapeze în același loc în tabel este de , , mai puțin de jumătate Scepticii pot testa paradoxul la următoarea petrecere aglomerată* [Paradoxul zilei de naștere a fost discutat informal de matematicieni în anii ; originea acestui paradox este necunoscută Vezi IJ Good, Probability and the Weighing of Evidence (Griffin, ), , și R vonMises, Istanbul Universitesi Fen Fakiiltesi Mecmuasi ( ), - ; W Feller, An Introduction to Probability Theory (New York: Wiley, ), Secțiunea ] Pe de altă parte, folosit în tabel abordare este foarte flexibilă [vezi M Greniewski și W Turski, CACM ( ), - ], iar pentru mese mici, o funcție potrivită poate fi găsită într-o zi sau două Rezolvarea acestor tipuri de puzzle-uri este foarte distractiv! Căutarea funcţiilor adecvate a fost luată în considerare de mulţi cercetători, incluzând, de exemplu, R Sprugnoli, CACM ( ), - , ( ), , ; RJ Cichelli, CACM ( ), - ; T J Sager, CACM ( ), - , ( ), ; B S Majewski, N C Wormald, G Havas * Iubitorii de matematică se pot consulta pentru detalii, de exemplu, la cartea lui W Ball și G Coxeter Mathematical essays and entertainment (M : Mir, - p ) Scepticii nesociabili sunt sfătuiți să-și amintească clasa de la școală sau un grup de la institut - Notă, trad tabelul CONVERSIE UNA LA UNA A SETULUI DE CHEI LA ADRESE Q e CZJ Echipa LD N K( : ) - - - - - - - - - - - - - - LD K( : ) - - - - - - - - - - - - - - INC - - b - - - - - LR ♦+ - - - - - - INC , LD K( , ) b J Z F b INC - , - - - - - - - LR F - - - - - - - INC , - - LDA K( : ) - - JAZ F - - DECI - , J N F INC H LDA K - - TABEL CMPA, - - Eșec JNE - - și ZJ Czech, Comp J ( ), - ; Cehă, Havas și Majewski, Comp teoretic sci ( ), - Vezi, de asemenea, J Korner și K Marton, Europ J Combinatorics ( ), - , privind limitările teoretice ale funcțiilor hash ideale Desigur, această metodă are un dezavantaj foarte semnificativ, care constă în faptul că conținutul tabelului trebuie cunoscut în prealabil Adăugând o singură cheie, puteți strica totul și trebuie să începeți toată munca de la zero Cu toate acestea, o metodă mult mai flexibilă poate fi obținută prin eliminarea cerinței de unicitate și prin utilizarea unor metode speciale pentru rezolvarea situațiilor ambigue care apar după calcularea f(K) Deci, ne-am apropiat de o clasă populară de metode de căutare cu denumirea generală de hashing sau scatter storage Verbul "to hash" înseamnă "a toca, a toca și a face mizerie din asta"* Ideea din spatele hashingului este utilizarea unor informații parțiale derivate dintr-o cheie ca bază a unei căutări Calculăm adresa hash h(K) și o folosim pentru a efectua căutarea Paradoxul zilei de naștere ne avertizează că este posibil să existe chei diferite Ki / Kj care au aceeași valoare hash h(Ki) = h(Kj) Un astfel de eveniment se numește coliziune (collisiori) - au fost dezvoltate câteva abordări interesante pentru a rezolva coliziunile Pentru a utiliza hashing, un programator trebuie să rezolve două probleme aproape independente - alege o funcție hash * În acest sens, a fost foarte tentant să folosim cuvântul rusesc okroshka pentru termenul hashing - Notă, trad SL SL O S ai e sl O sl O g > O " m X o o o o n n e e Conținutul lui gi după executarea unei comenzi cu o anumită tastă K - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - b - - - - - - - - - - - - - - - b - - - - - - - - - - - - - - - - - - - b - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - b - - - - - b - - - - - b - - - - h(K) și o modalitate de a rezolva coliziunile Această secțiune va aborda ambele sarcini Funcții hash Pentru certitudine, această secțiune presupune că funcția hash nu are mai mult de M valori diferite și pentru toate cheile K O = (y/ - )/ ~ , ; în timp ce succesiunea de valori h(/C), h(K + ), h(K + ), se comportă exact ca o succesiune de valori hash h( ), h(l), h( ), , astfel încât următorul experiment să devină firesc: pe segmentul [ ], se marchează succesiv punctele {ț!"- }, { ^- }, { ~ }, , unde {a:} înseamnă partea fracțională a numărului x (adică x - [rc] sau a: mod ) După cum se arată în fig , aceste puncte sunt destul de bine separate unele de altele; fiecare punct nou adăugat se încadrează într-unul dintre cele mai mari intervale rămase și îl împarte în funcție de raportul de aur! [Acest fenomen a fost observat prima dată de J Oderfeld și demonstrat de S Swierczkowski, Fundamenta Math ( ), - Numerele Fibonacci joacă un rol important în demonstrație ] Această proprietate remarcabilă a raportului de aur este de fapt un caz special al unei teoreme mai generale propuse de Hugo Steinhaus și demonstrată pentru prima dată de Vera Turân Sos [Acta Math Acad sci spânzurat ( ), - ; Ann Univ sci Budapesta Secta Eotvos Matematică ( ), - ] Teorema S Fie Ѳ un număr arbitrar irațional La plasarea punctelor { }, { Ѳ}, , {n } pe segmentul [ ], lungimile n + ale segmentelor formate nu au mai mult de trei valori diferite În plus, următorul punct {(n+ ) } va cădea într-unul dintre cele mai mari segmente deja obținute | Astfel, punctele { }, { }, , {n } sunt distanțate destul de uniform între și Dacă Ѳ este un număr rațional, atunci teorema rămâne adevărată (cu o interpretare adecvată a segmentelor de lungime zero, care se formează atunci când n este mai mare sau egal cu numitorul ) Dovada teoremei S, împreună cu o analiză detaliată a situației actuale, este dată în Ex Se dovedește că segmentele de o lungime dată sunt create și distruse pe rând ("primul intrat, primul ieșit"; primul-intrat-primul-ieșit - FIFO) Desigur, unele valori ale lui sunt mai bune decât altele; de exemplu, dacă este aproape de sau , mai întâi obținem multe segmente mici și unul mare În ex Figura arată că două numere, și anume φ~ și φ~ = - φ~ , conduc la secvențele "cele mai uniform distribuite" dintre toate numerele între și Teoria de mai sus ne conduce la hashing Fibonacci, în care A este considerat cel mai apropiat număr întreg de φ~ u> coprim de w De exemplu- măsuri, dacă MIX ar fi un computer zecimal, s-ar putea folosi multiplicator A = + ( ) Dispersează bine cheile alfabetice precum LIST , LIST , LIST Totuși, când luăm în considerare schimbarea cheilor în poziția a patra - de exemplu, SUM U, SUM U, SUM U - aflăm că împrăștierea are loc în același mod ca și cum ar fi folosită teorema S cu Ѳ = {IOOL/w} = în loc de Ѳ = = A/ w Ca urmare, această împrăștiere se dovedește a fi ceva mai proastă decât pentru Ѳ - φ~\, deși rămâne destul de bună Cu toate acestea, în cazul unei modificări a celei de-a doua poziții a tastei - Aiii, A iii, AZiii - valoarea efectivă a lui Ѳ este , care este poate prea aproape de Prin urmare, ar fi posibil să se lucreze cu un multiplicator + în locul multiplicatorului ( ); un astfel de factor va separa bine secvențele de taste care diferă în orice poziție Din păcate, o astfel de alegere duce la o nouă problemă similară cu cea care apare la împărțirea la rfc±l: cheile de tip XY și YX vor ajunge în același loc în timpul hashingului! O modalitate de a ocoli această problemă începe cu o privire mai atentă asupra structurii care stă la baza Teoremei S Pentru secvențele scurte de chei, doar primele câteva rapoarte parțiale ale reprezentării fracțiunii continue a lui Ѳ sunt importante Rapoartele parțiale mici corespund proprietăților de distribuție "bune" Prin urmare, se poate demonstra că cele mai bune valori ale lui Ѳ se află în intervale Z-lea Z £\ D L U ' U ' U ' U ' Valoarea lui A poate fi compusă astfel încât fiecare dintre octeții săi să fie într-un interval "bun" și să nu se apropie prea mult de valorile altor octeți (sau complementele acestora), de exemplu + Un astfel de multiplicator poate fi recomandat în siguranță pentru utilizare (Ideile despre hashing multiplicativ prezentate în această secțiune sunt în principal cele ale lui R W Floyd ) O funcție hash bună trebuie să îndeplinească două cerințe a) Calculul lui trebuie să fie foarte rapid b) Ar trebui să minimizeze numărul de coliziuni Proprietatea (a) depinde de caracteristicile computerului, iar proprietatea (b) depinde de caracteristicile datelor Dacă toate cheile ar fi cu adevărat aleatorii, ai putea folosi câțiva biți din ele și le poți folosi pentru a obține o funcție hash; totuși, în practică, satisfacerea (b) necesită o funcție care depinde de toți biții cheii Până acum, am luat în considerare hashingul cheilor "cu un singur cuvânt" Pot fi lucrate cu chei cu mai multe cuvinte și chei cu lungime variabilă cum cu numere cu precizie multiplă și să le aplice toate metodele avute în vedere A doua modalitate este de a combina cuvintele într-unul singur și de a efectua o singură operație de înmulțire sau împărțire așa cum este descris mai sus Această combinație poate fi realizată prin adăugarea modulo w sau efectuarea unei operații XOR pe un computer binar Ambele operații folosesc toți biții din ambele argumente; "exclusiv sau" este totuși de preferat deoarece evită debordarea aritmetică Principalul dezavantaj al acestei metode este că aceste operații sunt comutative, ceea ce înseamnă că adresele hash (X, Y) și (Y, X) se vor potrivi Pentru a elimina acest dezavantaj, GD Knott a propus să efectueze o deplasare ciclică înainte de operația aritmetică O modalitate și mai bună de a șterge caractere I (sau cuvinte I) taste K = x\X xi este de a calcula h(K) = (Zii(xi) -I- / ( : ) H-L hi(xiY) mod M, ( ) unde fiecare hj este o funcție hash independentă Această idee, propusă de J L Carter (JL Carter) și M N Wegman (M N Wegman) în , este deosebit de eficientă atunci când fiecare Xj reprezintă un singur caracter, întrucât în acest caz se poate folosi un tablou precalculat pentru fiecare funcție hj Astfel de matrice fac inutilă înmulțirea Și dacă M este o putere a doi, atunci diviziunea poate fi evitată în ( ) folosind XOR în loc de adunare Astfel, ( ) satisface cu siguranță proprietatea (a) Mai mult, Carter și Wegman au demonstrat că, dacă hj este ales aleatoriu, proprietatea (b) se va menține indiferent de intrare (vezi exercițiul ) Au fost propuse numeroase alte metode de hashing, dar niciuna dintre ele nu s-a dovedit superioară metodelor simple descrise mai sus O trecere în revistă a unor metode cu caracteristici detaliate de performanță pe fișiere reale poate fi găsită în VY Lum, P S T Yuen și M Dodd, CACM ( ), - Dintre celelalte metode de hashing interesante, tehnologia bazată pe teoria codificării algebrice pare să fie de cel mai mare interes Această tehnică este similară cu metoda de împărțire descrisă mai sus, totuși, în loc să se împartă la un întreg, se efectuează împărțirea printr-un polinom modulo (După cum sa menționat în secțiunea , această operație este analogă cu diviziunea, deoarece adăugarea este analogă cu XOR) operațiune ) În această metodă, M trebuie să reprezinte gradul (M = m), și folosim polinomul de gradul al m-lea P(x) = xm + ppm ixm~ + ••• + cheia binară de p-n cifre K = (fcn- i • ■ • &i ^ ) poate fi considerat ca un polinom /C(x) = fcn ix" + ■■■ + k\x + ko și se calculează restul K'(x) mod P(x) = hm-ixm~ + • • • + h^x + h , folosind aritmetica polinomială modulo În acest caz, h(K) = (hm i hiho)? Cu alegerea corectă a lui P(x), această funcție hash poate garanta că nu există coliziuni între taste aproape identice De exemplu, pentru n = , m = și P(x) = a: + x + x + x* + x + x + ( ) se poate arăta că /i(/ M; și astfel se înlătură problema de preaplin Cu lista de îmbinare (vezi Figura și algoritmul C), puteți pune elemente care depășesc într-un pool de memorie auxiliară; L Guibas a demonstrat că numărul mediu de probe la introducerea elementului (M + L + ) este (L/ M+ |) (( + /M)m - ) + Cu toate acestea, este de obicei de preferat să se utilizeze o schemă alternativă în care primele elemente care provoacă coliziunea sunt plasate în zona de memorie auxiliară; în acest caz, listele vor "crește împreună" numai atunci când zona auxiliară este completată (vezi exercițiul ) Rezolvarea coliziunilor prin adresare deschisă O altă modalitate de a rezolva problema coliziunilor este să aruncați referințele în întregime, pur și simplu parcurgând diferitele înregistrări din tabel una câte una până când se găsește fie tasta K, fie o poziție goală Ideea este de a formula o regulă conform căreia, având în vedere cheia K, se determină o "secvență de probă", adică o succesiune de poziții de tabel care trebuie căutate la introducerea sau căutarea K Dacă se întâlnește o poziție goală la căutarea lui K conform secvenței definite de această cheie, puteți concluziona că K nu este în tabel (deoarece aceeași succesiune de verificări trebuie efectuată de fiecare dată când este găsit K) Această clasă generală de metode se numește adresare deschisă [cf W W Peterson, IBM J Research &: Development ( ), - ] Cea mai simplă schemă de adresare deschisă, cunoscută sub numele de explorare liniară, utilizează o secvență ciclică de verificări h(K), h(K) - , , , M - , M - , , h(K) + ( ) și este descrisă după cum urmează Algoritmul L {Explorare și inserare liniară) Acest algoritm caută o anumită cheie K într-un tabel cu M noduri Dacă K nu este în tabel și tabelul este incomplet, cheia K va fi introdusă în tabel Nodurile de tabel sunt notate ca TABEL [r], , cel mai bun lucru de spus despre programul L este că rulează lent, dar sigur Într-adevăr, pentru N = M - există un singur post vacant în tabel și, prin urmare, numărul mediu de verificări într-o căutare nereușită va fi (M + ) / ; vom demonstra, de asemenea, că numărul mediu de încercări pentru o căutare cu succes într-un tabel completat este de aproximativ y/vM/z Fenomenul de aglomerare, care face explorarea liniară costisitoare atunci când tabelele sunt aproape pline, este exacerbat de hashingul diviziunii dacă este probabil să apară valori cheie consecutive {K, K+ , K+ , }, deoarece aceste chei va avea coduri hash consecutive Hashingul multiplicativ vă permite să împărțiți cu succes astfel de clustere O altă modalitate de a vă proteja împotriva codurilor hash secvențiale este să setați în pasul L i +- i - c în loc de i + - i - Puteți utiliza orice valoare pozitivă a lui c care este coprimă cu M, deoarece secvența de sonde din acest case va verifica in contul final toate pozitiile tabelului fara exceptie O astfel de modificare va încetini puțin programul L din cauza verificării pentru i ~ \M - h^K) dacă hi(K) > Această metodă este mai rapidă decât împărțirea repetată, dar introduce unele grupări secundare, ceea ce are ca rezultat o ușoară creștere a numărului de încercări datorită șansei crescute ca două sau mai multe chei să urmeze aceeași cale Formulele de mai jos pot fi folosite pentru a determina dacă câștigul în timpul de hash este mai mare decât pierderea în probe suplimentare Algoritmii L și D sunt foarte similari, dar există suficiente diferențe între ei încât este util să comparați timpul de rulare al programelor MIX corespunzătoare Programul D (adresare deschisă dublu hashed) Deoarece acest program este foarte asemănător cu programul L, este prezentat aici fără comentarii În programul rI = c - START LDX K SRAX A-SI ENTA DIV =M- = A-SI DIV =M= STX *+ ( : ) A-SI STX *+ ( : ) ENT * A-SI ENT * LDA LA A-SI LDX TABLE, H DECI , Cl CMPX K J NN *+ Cl JE SUCCES INC M JXZ F -S CMPA TABEL, Cl JE SUCCES С- DECX - LDX TABEL, C - - STX LOCURI VACANTE - JXNZ ZV S - - LDA K - H LDX POSTURI VACANTE - STA TABLE, - JXZ DEPUNERE - Contoarele de frecvență A, C, , au aici aceeași semnificație ca în programul C de mai sus O altă variabilă, B, are o medie de aproximativ (C - )/ (dacă limităm intervalul de valori ale lui hi(K) la, de exemplu, , calculați cq = h^Ko), unde Ko = KEY[p ] și vedeți dacă nodul TABLE [(p - cq) mod M] este liber Dacă da, puneți TABLE [pol în el și apoi introduceți un K în poziția p Acest lucru duce la o creștere a timpului de eșantionare Ko cu un pas, dar timpul de eșantionare K scade cu t > pași, rezultând un câștig general al timpului de eșantionare În mod similar, dacă nodul TABLE [(p - cq) mod M] este ocupat și t > , verificați nodul TABLE[(po - co) mod Ml; dacă este și ocupat, se calculează Ci = /i (KEYCpil), se verifică TABLEC(po - cj mod Ml, etc În general, fie Cj = i (KEY Gry]) și py* = (pj -kcj) mod M; dacă pentru toate j și k astfel încât j + k r+ , priviți nodurile TABLE[po,rJ, TABLECpi,r- J, •••> TABLEEpr -i,iJ Dacă primul spațiu gol se întâmplă să fie în poziția Pj k + ) lasa pozitia k + goala Există /(fc + l, k) secvențe de primul tip, f(M - k - , N - k) secvențe de al doilea tip și (t) modalități de amestecare a acestora În cele din urmă, să setăm Pk să fie probabilitatea ca la introducerea cheii ( W + )-a, să fie necesare exact k + încercări Din aceasta rezultă (vezi exerciţiul ) că pk = M~N (g(M, N, k) + g(M, N, k+ ) + • • • + g(M, N, N)) ( ) Acum C'N = (k + )A; ținând cont de formulele ( )-( ) și după anumite simplificări, obținem următorul rezultat * Autorul nu poate să nu facă o inserție autobiografică: am formulat pentru prima dată concluzia propusă în , la scurt timp după ce am început să lucrez la Arta programarii pe computer Deoarece a fost primul algoritm non-trivial pe care l-am analizat cu succes, a avut o influență puternică asupra structurii acestor cărți Chiar și acum, analiza algoritmilor rămâne una dintre activitățile principale din viața mea Teorema K Numărul mediu de încercări necesare la utilizarea algoritmului L, presupunând că toate secvențele hash MN ( ) sunt la fel de probabile, este = |( + Qo(M, Nl)) (căutare reușită), С(, = ( + Qi(M, N)) (căutare nereușită), Unde /r + \N(Nl) la / M + N-fc+l M ( ) ( ) ( ) Dovada Calcule detaliate sunt efectuate în ex (informații despre abatere pot fi găsite în exercițiile , și ) | Funcția ciudată Qr(M, N) care a apărut în teoremă arată doar înfricoșătoare; este foarte posibil să lucrezi cu el Avem Nk - prin urmare, dacă N/M = a, atunci Mk V Această relație oferă o estimare bună a Qr(M, V) pentru M mare și nu prea aproape de (estimarea inferioară este mai precisă decât cea superioară) Ca -> aceste formule devin inutilizabile, dar din fericire Qo(M, M - ) este o funcție a lui Q(M), al cărui comportament asimptotic a fost discutat în detaliu în Secțiunea ; Qi(M, M - ) este pur și simplu egal cu M (vezi exercițiul ) În notația standard a funcțiilor hipergeometrice - avem ГI I m)' O altă abordare a analizei cercetării liniare a fost propusă de G Schay, Jr [CACM și WG Spruth ( ), - ] Deși metoda lor oferă doar o aproximare a formulelor exacte ale teoremei K, ea aruncă o lumină suplimentară asupra algoritmului, așa că îl vom sublinia pe scurt În primul rând, luați în considerare uimitoarea proprietate a explorării liniare, observată pentru prima dată de W W Peterson în * F(x, y, a, b) = ~ + + О Z^a(V+îv~ ^ ' este notaţia standard pentru funcţie hipergeometrică - Notă, trad Teorema P Numărul mediu de încercări pentru o căutare cu succes folosind algoritmul L nu depinde de ordinea în care au fost introduse cheile; depinde doar de numărul de chei cu o anumită adresă hash Cu alte cuvinte, orice reordonare a secvenței hash u • • • alg produce o secvență hash cu același offset mediu al cheilor față de adresele lor hash (Se presupune, după cum am menționat mai devreme, că toate cheile din tabel sunt la fel de importante Dacă unele chei sunt accesate mai des decât altele, atunci folosind metoda de demonstrare a teoremei S, se poate demonstra că aranjarea optimă a cheilor este realizat prin inserarea lor în ordine descrescătoare a frecvenţelor ) Dovada Este suficient să arătăm că numărul total de sonde necesare pentru a introduce cheile pentru secvența hash na a^ este același ca și pentru secvența ai yi i iZj-ii ii ii+ adg, =G+ (A/ + )/(A/ + -n) pentru unele n xu este întotdeauna > £ In [JACM ( ), - ] Forma riguroasă a ipotezei lui Ullmann este foarte greu de demonstrat, mai ales că există multe opțiuni de atribuire a probabilităților pentru a obține un efect de explorare uniform; nu este nevoie să se atribuie probabilități \/M\ fiecărei permutări De exemplu, următoarele sarcini oferă, de asemenea, echivalentul unui studiu uniform Probabilitate de permutare Probabilitate de permutare / / / / ( ) / / / / (Celor șaisprezece permutări rămase li se atribuie probabilitatea zero ) Următoarea teoremă caracterizează toate sarcinile oferind un comportament de explorare uniform Teorema U Prin atribuirea probabilităților permutărilor, toate (^) configurațiile celulelor goale și ocupate pot fi făcute la fel de probabile după N inserții pentru Să presupunem că F(A) = S(A) = l/(^) pentru toate seturile A cu |A| = n oo În mod curios, pentru a = , numărul asimptotic de accesări pentru o căutare eșuată crește cu b masa NUMĂR MEDIU DE CERERI ÎN CAZUL CĂUTĂRII EȘUITE PE LANȚURI SEPARATE Dimensiune factor de umplere, a bloc, b % % % % % % % % % % , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , Tabelul NUMĂR MEDIU DE CERERI ÎN CAZUL CĂUTĂRII REUSITE PE LANȚURI SEPARATE Dimensiune factor de umplere, a bloc, b % % % % % % % % % % , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , C) Utilizarea lanțurilor de îmbinare Este posibil să nu alocați o zonă specială de overflow, ci să adaptați algoritmul C pentru a lucra cu fișiere externe Pentru fiecare cilindru, poate fi menținută o listă dublu legată de spațiu liber, care leagă împreună toate blocurile incomplet umplute Atunci când se utilizează În această schemă, fiecare bloc conține un numărător care indică numărul de poziții de înregistrare goale Un astfel de bloc este eliminat din lista dublu legată numai atunci când contorul ajunge la zero Un "indicator rătăcitor" (vezi Exercițiile - ) poate fi folosit pentru a aloca depășiri, astfel încât diferitele lanțuri să utilizeze blocuri de depășire diferite Această metodă încă nu este analizată, dar poate fi destul de utilă C) Utilizarea adresei deschise Poți să faci fără referințe și să folosești metoda "deschisă" Când luăm în considerare căutările externe, explorarea liniară este probabil mai bună decât încercările aleatorii, deoarece valoarea lui c poate fi adesea aleasă pentru a minimiza întârzierile ascunse între accesările succesive Modelul teoretic aproximativ al unui studiu liniar cu care am lucrat mai devreme poate fi generalizat pentru a lua în considerare influența blocurilor Arată că un studiu liniar este într-adevăr destul de satisfăcător atâta timp cât tabelul nu este prea plin De exemplu, aruncați o privire la Tabel : Cu o rată de ocupare de % și o dimensiune a blocului de , numărul mediu de accesări per căutare reușită este de doar , Acest lucru este chiar mai bun decât ceea ce este necesar atunci când utilizați metoda de înlănțuire (A) cu aceeași dimensiune a blocului de , hit-uri! Tabelul NUMĂR MEDIU DE REFERINȚE ÎN CAZUL CĂUTĂRII REUSITE ÎN CERCETARE LINEARĂ Dimensiune factor de umplere, a bloc, b % % % % % % % % % % , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , О , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , , Analiza metodelor A și C conduce la concluzii foarte interesante din punct de vedere matematic; prezentăm aici doar câteva dintre rezultate, deoarece detaliile sunt date în Ex și Formulele conțin două funcții strâns legate de funcțiile J din teorema K și anume: ХГV CV + (" + !)(, + ) + (n + )(n + )(n + ) + ' ȘI tn(a)=e~na ((r)p)p (n + )! + (cm)n+I (n + )! e papapp ( - ( - a)R(a,n)) (st)p+ (n + )! ( ) Cu aceste funcții, numărul mediu de accesări efectuate la o căutare eșuată prin Metoda A este exprimat ca C'n - -abtb(a) + O ( ) pentru M, N -" oo, iar numărul corespunzător în cazul unei căutări reușite poate fi scris ca -Lab L / \ Cn \u d + e- ^ - ( + (" - ) + (" + ( cu Valorile asimptotice ale C'N și Cn sunt date în exercițiu , dar aceste aproximări nu sunt foarte bune pentru b mic sau a mare Din fericire, seria pentru Z(a, n) converge foarte repede chiar și pentru a mare, astfel încât formulele pot fi calculate cu orice precizie dorită fără mare dificultate Valoarea maximă este atinsă la a = , când la b -> c r-i b+i GG maxC'N = - = y - + + (b ), ( ) r~bb / ma xCN = + b! (I( ) + ) = - + y + ( ) ( ) conform aproximării Stirling și a analizei funcției R(n) = Z(l,n) - (vezi Secțiunea ) Numărul mediu de accesări pentru o căutare externă de succes folosind explorarea liniară are o formă neobișnuit de simplă: Cn " + t(>(a) + I b(a) + + • • • ( ) Această formulă poate fi explicată după cum urmează: numărul mediu total de accesări la căutarea tuturor N cheilor este NCn, care este N + TG + T + • • •, unde Tk este numărul mediu de taste care necesită mai mult de k accesări Teorema P spune că cheile pot fi inserate în orice ordine fără a afecta Cn', prin urmare, care este egal cu numărul mediu de intrări de overflow care ar fi prezente folosind metoda înlănțuirii cu M/k blocuri de dimensiunea kb, adică Ntkb(a) ), după cum sa menționat mai sus O analiză detaliată a formulei ( ) este dată în exercițiu O discuție despre aspectele practice ale construirii tabelelor hash externe este oferită de Charles A Olson [Proc ACM Nat Conf ( ), - ] În lucrarea sa sunt incluse câteva exemple practice; se precizează că numărul de înregistrări debordate crește semnificativ dacă fișierul este supus unor inserări/ștergeri frecvente fără mutarea înregistrărilor Lucrarea prezintă și o analiză a acestei situații, realizată în comun cu J A dePeyster (J A dePeyster) Compararea metodelor Am explorat multe metode de căutare diferite, dar care metodă este cea mai bună pentru o anumită aplicație? În câteva cuvinte este imposibil să precizez tot ceea ce aș vrea să iau în considerare atunci când aleg o metodă de căutare; totuși, următoarele considerații par a fi cele mai importante în ceea ce privește viteza algoritmului și cantitatea de memorie necesară de aceste metode Pe fig Figura prezintă rezultatele analizelor algoritmului din această secțiune și arată că diferite metode de rezoluție a coliziunilor duc la un număr diferit de încercări Cu toate acestea, numărul de eșantioane nu este singurul criteriu, deoarece metodele diferite necesită timpi diferiți pentru a finaliza proba, ceea ce afectează semnificativ timpul total de lucru (vezi Fig ) Într-un studiu liniar, este mult mai comun decât în cazul altor metode prezentate în Fig , accesați tabelul, dar această metodă este extrem de simplă În plus, explorarea liniară nu este o metodă atât de proastă: când tabelul este plin cu %, algoritmul L necesită în medie mai puțin de , încercări pentru a găsi un element aleatoriu în tabel (totuși, cu tabelul plin cu %, algoritmul L are nevoie de aproximativ , încercări pentru a introduce fiecare element nou) După cum se arată în fig , metoda de înlănțuire este foarte economică din punct de vedere al numărului de mostre și nu economică din punct de vedere al memoriei suplimentare necesare stocării câmpurilor de referință, ceea ce este deranjant mai ales când există înregistrări mici În acest caz, metoda de adresare deschisă devine mai profitabilă în comparație cu metoda în lanț De exemplu, atunci când alegeți între un tabel înlănțuit de de articole și un tabel cu adrese deschise de de articole, acesta din urmă este clar de preferat deoarece oferă căutări eficiente în de intrări și deține de două ori mai multe date Pe de altă parte, uneori din cauza dimensiunii înregistrărilor sau a specificului formatului utilizat, puteți obține de fapt spațiu gratuit pentru câmpurile de link (vezi exercițiul ) Cum se comportă metodele de hashing în comparație cu alte metode de căutare studiate în acest capitol? În ceea ce privește viteza, acestea sunt mai bune decât alte metode cu un număr mare de înregistrări, deoarece timpul mediu de căutare cu metoda hash rămâne limitat când N -> syu, dacă tabelul nu devine prea plin De exemplu, programul L necesită doar de unități de timp pentru a căuta cu succes cu un tabel plin de %, ceea ce este mai rapid decât cel mai rapid program MIX (vezi Exercițiile - ) pentru N > , iar costul acestei viteze este % spațiu În plus, căutările binare sunt potrivite doar pentru tabelele fixe, în timp ce tabelele hash permit inserări eficiente De asemenea, puteți compara programul L cu metodele de căutare orientate pe arbore care vă permit să efectuați inserări dinamice Programul L cu un tabel plin cu % este mai rapid decât programul T pentru N > și mai rapid decât programul D (exercițiul - ) pentru N > Doar una dintre metodele discutate în acest capitol este eficientă în cazul unei căutări reușite și nu irosește memoria - aceasta este modificarea lui Brent a algoritmului D Metoda lui Brent vă permite să puneți N înregistrări într-un tabel de dimensiunea M = N + și găsiți orice înregistrare într-o medie de , eșantioane Acest lucru nu necesită spațiu suplimentar pentru câmpurile de referință sau biții descriptor; cu toate acestea, o căutare eșuată poate fi foarte lentă (poate necesita aproximativ N/ încercări) (a) Căutare nereușită L - test liniar - algoritm L U - test aleator cu clustering secundar U - Hashing uniform - Algoritm D B - versiunea lui Brent a algoritmului D C - Hashing în lanț - Algoritm C - lanțuri separate - lanțuri separate cu liste ordonate O " S LA oo Astfel, hashingul are o serie de avantaje Pe de altă parte, există trei aspecte importante în care hashingul este inferior metodelor discutate mai devreme A) După o căutare nereușită într-un tabel hash, tot ceea ce se știe este că cheia dorită nu este în tabel, iar metodele bazate pe compararea cheilor oferă întotdeauna informații suplimentare, de exemplu, vă permit să găsiți cea mai mare cheie K* În multe aplicații, obținerea unor astfel de informații este critică; de exemplu, vă permite să interpolați o funcție * Totuși, întrucât vorbim de o căutare nereușită, inegalitățile date de autor devin stricte - Notă, trad după valorile sale de tabel sau utilizați un algoritm bazat pe compararea cheilor pentru a găsi toate cheile care se află între două valori date ale lui K și K' În plus, algoritmii de căutare în arbore din Secțiunea facilitează prezentarea conținutului unui tabel în ordine crescătoare fără sortare separată B) Este adesea foarte dificil să alocați memorie pentru un tabel hash - trebuie să alocați o zonă de memorie pentru aceasta în avans și nu este întotdeauna posibil să spuneți în avans ce dimensiune este necesară Alocand prea multa memorie, puteti limita cantitatea de memorie pentru alte liste sau alti utilizatori; dacă este alocată memorie insuficientă, tabelul va depăși Spre deosebire de această metodă, algoritmii de căutare și inserare în arbore nu cresc niciodată peste dimensiunea necesară Într-un mediu de memorie virtuală, este posibil să se localizeze accesările la memorie atunci când se efectuează o căutare în arbore (sau o căutare numerică în arbore), în timp ce la crearea unui tabel hash mare, este necesar să accesezi sistemul de operare pentru a accesa o nouă pagină de memorie aproape la fiecare time hashing următoarea cheie C) În cele din urmă, trebuie să credeți în teoria probabilității atunci când aplicați metode de hashing, deoarece acestea sunt eficiente doar în medie, în timp ce cele mai rele cazuri sunt pur și simplu teribile Ca și în cazul generatoarelor de numere aleatoare, nu puteți fi niciodată absolut sigur că o funcție hash va funcționa satisfăcător pe un nou set de date Astfel, hashingul nu este cea mai bună metodă pentru unele aplicații în timp real (cum ar fi controlul traficului) în care viețile umane sunt în joc Algoritmii de arbore echilibrat din Secțiunile și sunt mai siguri deoarece oferă o limită superioară garantată a timpului de căutare Poveste Ideea hashingului a fost propusă pentru prima dată de H P Lan (H R Luhn) când a scris un memorandum intern IBM în ianuarie , cu o propunere de utilizare a metodei în lanț De fapt, acest memorandum propunea pentru prima dată utilizarea listelor liniare legate în rezolvarea problemelor practice El a subliniat că este de dorit să se utilizeze blocuri care conțin mai mult de un element pentru căutări externe La scurt timp după aceea, A D Lin a dezvoltat teoria lui Lahn și a propus o tehnologie pentru gestionarea depășirilor folosind "adresele degenerate"; de exemplu, când blocul primar depăşeşte, de înregistrări de depăşire cad în blocul secundar ; revărsările din acest bloc merg la blocul terțiar etc (presupunând că există de blocuri primare, de blocuri secundare, de blocuri terțiare etc ) Funcția hash propusă de Lahn a fost de natură alfanumerică, de exemplu combinând perechi adiacente de cifre ale unei chei prin însumarea modulo , astfel încât a fost împachetat la Aproximativ în aceeași perioadă, ideea de hashing independent a apărut de la un alt grup de angajați IBM: Gene M Amdahl, Elaine M Boehme, N Rochester și Arthur L Samuel (Arthur L Samuel) Ei creau un program în asamblare pentru IBM Pentru a rezolva problema coliziunilor, Gini Amdal a sugerat utilizarea adresei deschise cu explorarea liniară Hashing a fost descris pentru prima dată în presa publică de către Arnold I Dumey [Computers and Automation , (decembrie, ), - ] El a fost mai întâi să menționăm ideea de a împărți la un număr prim și de a folosi restul ca adresă hash Într-un articol interesant, Dumi menționează lanțuri, dar nu există o adresare deschisă în el Matematicianul sovietic A P Ershov a dezvoltat independent metoda de adresare liniară deschisă în [DAN SSSR ( ), - ]; a publicat rezultate empirice privind numărul de încercări, presupunând pe bună dreptate că numărul mediu de încercări pentru o căutare reușită este Fie {x} r mod \u d x - [xj și {x} + - x - [r] + Să renumerăm segmentele rezultate din inserarea secvențială a punctelor {Ѳ}, { }, { }, în intervalul [ ] în ordinea apariției lor, iar primul segment este atribuit numărul Demonstrați următoarele afirmații Un interval numărul de lungime {t }, unde t = rqk + qk-i, , (c - ) sau c - b > (b - a) Demonstrați că pentru unele n punctul {n } dă o partiție proastă, cu excepția cazurilor Ѳ mod = φ și Ѳ mod = φ~ , în care nu există niciodată partiții proaste [A/ O ] (RL Graham) Demonstrați că dacă Ѳ, ai, ,ad sunt numere reale și ai = , dacă sunt numere întregi pozitive și dacă punctele {пѲ + aj} sunt introduse în intervalul [ ] pentru și N = Dacă sunt alese șapte chei diferite din set de toate cheile posibile, atunci ceea ce va fi este probabilitatea exactă ca secvența hash să fie obținută (adică h(Ki) = , h(K ) = , , h( Kr) = )? Exprimați răspunsul în funcție de M și R [M ] Explicați de ce formula ( ) este corectă [M ] Care este numărul de secvențe hash ai a ad care, folosind o examinare liniară, oferă modelul celulelor ocupate dat în ( )? [M ] Completați demonstrația teoremei K (Sugestie Let *(n, x, y) = + k)k+ (y ~ k)n~k~ v - n); pentru a demonstra că s(n, x, y) - x(x + y)n + ns(n - , m + , y - ), folosiți teorema binomială a lui Abel ( -( )) ) [MLO] "În acele zile, izolat, acum aproape epic*", când computerele erau foarte lente, prin viteza luminilor intermitente de pe panou se vedea cât de repede lucra algoritmul L Când masa era aproape completat până la capăt, puteai observa că unele date au fost procesate foarte rapid, iar altele foarte lent Aceste observații sugerează valoarea mare a abaterii standard a numărului de probe în cazul unei căutări nereușite atunci când se utilizează un studiu liniar Găsiți o formulă care exprimă varianța în termeni ai funcțiilor Qr din teorema K și estimați valoarea acesteia pentru N = aM și M -> oo [M ] (Problemă de parcare ) Să presupunem că există o stradă cu sens unic cu m locuri de parcare, numerotate de la la m În mașina de lângă șofer, moțește soția acestuia, care se trezește brusc și cere să oprească imediat Sotul se conformeaza cu ascultare cererii sotiei si se opreste la primul loc de parcare liber Cu toate acestea, dacă "nu există parcare nicăieri, Brighton este plin", adică nu există un singur spațiu liber în față (soția s-a trezit în momentul în care mașina trecea de cel de-al-lea loc de parcare și toate spațiile sunt k, k + , , t eram ocupat), respectarea legii de către șofer depășește ascultarea față de soția sa, iar el, după ce și-a cerut scuze, continuă Să presupunem că pe aceeași stradă sunt n mașini cu soții ațipite, iar a j-a soție se trezește în fața locului de parcare cu dj-a Câte secvențe ai an vor permite tuturor mașinilor să parcheze cu succes, presupunând că strada a fost inițial goală și că niciunul dintre mașinile parcate nu a plecat De exemplu, dacă m = n = și PNkZk■ c) Exprimați numărul mediu de încercări pentru o căutare reușită în ceea ce privește această funcție generatoare * Citatele din lucrările lui V Vysotsky și V Tokarev, prezente în traducerea acestui exercițiu și a următoarelor exerciții, lipsesc, desigur, în ediția originală - Notă, trad d) Deduceți numărul mediu de încercări în cazul unei căutări eșuate, luând în considerare opțiunile pentru structurile de date care utilizează următoarele convenții: (i) adresa hash specifică titlul listei (vezi Figura ); (ii) adresa hash indică o poziție în tabel (a se vedea figura ), dar toate cheile, cu excepția primei din listă, se încadrează într-o zonă separată de depășire; (iii) adresa hash indică poziția în tabel, iar toate elementele sunt în tabelul hash [M ] Continuând cu ex , aflați care este numărul mediu de încercări pentru căutări nereușite atunci când listele individuale sunt ordonate după valorile cheie? Luați în considerare structurile de date (i), (ii) și (iii) [M ] Continuând cu ex , (d), găsiți varianța numărului de încercări într-o căutare eșuată folosind structurile de date (i) și (ii) ► [M ] Formula ( ) oferă numărul mediu de eșantioane în cazul unei căutări cu succes în lanțuri separate Care este varianța numărului de probe obținute? [M [ (Tree hashing ) Un programator capabil poate încerca să folosească arbori de căutare binari în loc de liste liniare în metoda înlănțuirii, combinând astfel algoritmul T cu hashing Analizați numărul mediu de încercări necesare pentru un astfel de algoritm combinat atât pentru căutări reușite, cât și pentru căutări nereușite [Indicaţie Vezi -( ) ] [M S] Fie c v(fe) numărul total de liste de lungime k generate de algoritmul C aplicat tuturor secvențelor hash MN ( ) Găsiți o relație recursivă între numerele cjv(fc) care vă permite să definiți o formulă simplă pentru suma Cum este Sn legat de numărul de încercări într-o căutare nereușită prin algoritmul C? [A/ ] Formula ( ) oferă numărul mediu de încercări efectuate de algoritmul C la o căutare nereușită Care este varianța acestui număr de mostre? [MJ A] Analizați Tg,-, numărul mediu de reduceri ale indicelui R cu la inserarea elementului (N + ) conform algoritmului C ► [M ] Ieșire ( ), probabilitatea ca prima încercare a algoritmului C să aibă succes [HM ] Luați în considerare o modificare a algoritmului C care utilizează un tabel de dimensiune M' > M Numai primele M poziții sunt folosite pentru hashing, astfel încât primele M' - M noduri goale găsite în pasul C vor fi în plus poziții la masă În cazul unei valori fixe a lui M', care alegere oo [MJ ] Efectuați ex , dar cu clustering terțiar, când secvența de eșantioane începe cu /іі(K'), ((Лі(К') + h (,K)) modM și probele ulterioare sunt selectate aleatoriu în funcție doar de hi(K) w (Astfel, (M - y m oo pentru a fix + |a + O(a ) adevărat ca M -> oo? [L/^b] Este metoda analizată în ex , cea mai proastă schemă de hashing unică posibilă în sensul ex ? [M ] Se spune că o schemă cu o singură hașare este ciclică dacă incrementele P P ■ ■ -Pm - i (în notația exercițiului ) sunt fixe pentru toate K (Exemple de astfel de metodă sunt explorarea liniară și secvențele considerate în Exercițiile și ) Schema optimă cu o singură hașare este cea a cărei valoare Cm este minimă între toate (M - )!A; scheme cu un singur hash pentru un M dat Pentru M |( + /( - a)) în sensul Ex [Indicatie Arătați că o căutare eșuată necesită exact k încercări cu probabilitatea Pk r - Aici este dat toleranţă; orașele situate la o distanță de la r - până la r + de y trebuie incluse în ambii subarbori O căutare într-un astfel de arbore vă permite să determinați toate orașele la o distanță de cel mult dintr-un punct dat (Fig ) Orez Fig Nivelurile superioare ale exemplului "arborele de corespondență" Pentru a căuta toate orașele din apropierea unui punct dat x, începem căutarea de la rădăcină Dacă x se află la de mile de Las Vegas, mergeți la stânga pe copac, altfel mergeți la dreapta Repetăm acest proces până când se ajunge la nodul final Metoda de construire a copacilor asigură că toți copacii pe o rază de de mile de x sunt întâlniți în timpul căutării Pe baza acestei idei, McNutt și Edward Pring au efectuat mai multe experimente folosind ca exemplu o bază de date care conține cele de orașe cele mai populate din Statele Unite continentale în ordine aleatorie Raza de testare a scăzut în mod regulat și anume prin înlocuirea lui r cu , r la deplasarea spre stânga și cu , m la deplasarea spre dreapta, cu excepția cazului în care s-au ales succesiv două ramuri drepte (în timp ce r a rămas neschimbat) Ca rezultat, a fost obținut un arbore din noduri la - mile și din noduri la = mile Nivelurile superioare ale arborelui mai mic rezultat sunt prezentate în fig (În restul copacului, Orlando (Florida) apare sub Jacksonville și Miami Unele orașe sunt foarte comune Astfel, Brockton (Massachusetts) apare la noduri!) Creșterea rapidă a fișierului la o mărire de indică limitările utilizării arborilor de corespondență Probabil că este mai bine să lucrați direct cu coordonatele fiecărui punct, tratând coordonatele ca atribute sau chei secundare; într-un astfel de caz, puteți crea o interogare booleană bazată pe intervalele de valori cheie De exemplu, să presupunem că intrările din fișier sunt pentru orașe din America de Nord și că interogarea caută toate orașele pentru care ( , ° S Sf XX X o E-" h o> * la X despre X o> * * O(r) X Sf XX § O XX § x x XX despre X sisichya £ ' §§d d§-e "xg;a- \o °p(r) chy> atunci funcția (îm> O * - * - * - * - * - * -> O O * -> ( ) Examinarea acestui tabel arată că toate intrările care se potrivesc cu interogarea O * * * apar la pozițiile , , , și În mod similar, orice interogare de bază cu trei caractere se potrivește exact cinci poziții, o interogare de bază cu două "* " - trei poziții și cu un "*" - una sau două poziții, ( x + x ) / = , în medie Astfel, avem următoarele Numărul de biți nedefiniți în cerere Numărul de poziții de căutare = / și / și / , și / = °/ ( ) Desigur, acesta este doar un mic exemplu și, în astfel de cazuri, este mult mai ușor să căutați "front-on" Această metodă duce la aplicații non-triviale, deoarece poate fi folosită și când m = r și n = r, maparea înregistrărilor de biți la pozițiile r și N prin împărțirea cheilor secundare în grupuri r de biți și aplicând ( ) fiecărui grup Maparea rezultată are proprietatea necesară: o interogare care lasă k din m biți nedefiniti corespunde cu aproximativ Nk^n poziții (vezi Exercițiul ) În , A E Brouwer a găsit o modalitate atractivă de a comprima biți la biți folosind o mapare similară cu ( ) Fiecare octet de biți aparține exact uneia dintre următoarele de clase * * * * * * * * * * * * * * * * * * * * * * * * * ** * ** * ** * ** * * * * * * * * * * * * * ** * ** * * * * * * * * * * * * * * * * * * * ** * ** * * * * * * * * * * * * * * * * * * ( ) Asteriscurile din această construcție sunt aranjate astfel încât să fie câte pe fiecare rând și câte pe fiecare coloană Figura explică modul în care sunt construite astfel de circuite care comprimă înregistrările cu m - r biți în adrese n = r-biți În practică, se folosesc blocuri de dimensiunea b și N ≈ P ; cazul când = a fost folosit mai sus pentru a simplifica prezentarea materialului Rivest a sugerat, de asemenea, o altă modalitate simplă de a gestiona cererile de bază Să presupunem că avem N " intrări de de biți și trebuie să răspundem la o interogare de bază arbitrară de de biți, cum ar fi ( ) În acest caz, putem pur și simplu să împărțim cei de biți în trei câmpuri de biți și să menținem trei tabele hash separate de dimensiunea M = Fiecare intrare este stocată în trei locuri, în liste corespunzătoare modelelor de biți ale celor trei câmpuri Cu corespunzator prin intermediul, fiecare listă va conține aproximativ un element Într-o interogare de bază dată cu k biți nedefiniți, cel puțin unul dintre câmpuri va avea [/r/ ] sau mai puțini biți nedefiniți Prin urmare, va fi necesar să căutați nu mai mult de ^/ J sa L*/ liste pentru a găsi toate răspunsurile la interogare Cu toate acestea, puteți utiliza orice altă tehnologie pentru a procesa interogări de bază în câmpurile selectate Raze generalizate (încercări) Rivest a propus o altă abordare, care se bazează pe structuri de date similare cu razele utilizate în Secțiunea Se poate presupune că fiecare nod intern al fasciculului binar generalizat determină biții reprezentați în înregistrare De exemplu, folosind tabelul , puteți pune Vanilina ca rădăcină a fasciculului Apoi subraza din stânga va corespunde acelor rețete în care nu este necesară vanilina, în timp ce rețete cu vanilină sunt colectate în subraza din dreapta O astfel de împărțire de - împarte cu succes fișierul aproape la jumătate; fiecare dintre subfișiere este tratat în mod similar, iar când la un moment dat subfișierul devine suficient de mic, acesta poate fi reprezentat ca un nod frunză Pentru a căuta de-a lungul unei raze generalizate cu o rădăcină care definește un atribut care corespunde cu sau în interogare, mergeți la căutarea în subraza stângă sau, respectiv, în dreapta; dacă acest atribut din cerere se potrivește, ne uităm la ambele subraze Să presupunem că atributele nu sunt binare, ci sunt reprezentate într-o notație binară Se poate construi o rază uitându-se mai întâi la primul bit al atributului , apoi la primul bit al atributului , , primul bit al atributului m, al doilea bit al atributului și așa mai departe se numește md-ray, prin analogie cu md-trees (care se ramifică ca urmare a unei comparații, nu a unui bit check) F Flajolet și C Puech au arătat că timpul mediu de răspuns pentru o interogare parțial definită pe un fascicul md aleator cu N noduri este definit [JACM ( ), - , § S-a calculat varianța acestei cantități de W Schachinger, Random Structures and Algorithms ( ), - Un algoritm similar poate fi extins la versiunile m-dimensionale ale arborilor de căutare digitale și arborilor Patricia din Secțiunea Aceste structuri, care sunt de obicei oarecum mai bine echilibrate decât grinzile md, au fost analizate de P Kirschenhofer și H Prodinger, Random Structures and Algorithms ( ), - *Scheme echilibrate O altă abordare combinatorie a obținerii de informații, bazată pe sisteme de blocuri incomplete echilibrate, a făcut obiectul multor cercetări Deși subiectul cercetării este foarte interesant din punct de vedere matematic, din păcate, avantajele acestuia față de alte metode descrise mai sus nu au fost încă dovedite O scurtă introducere în teorie va fi prezentată aici pentru a arăta eleganța rezultatelor, în speranța că cititorii își vor da seama cum să pună ideile teoretice în practică Un sistem triplu Steiner este o distribuție a ѵ obiecte în triple neordonate, astfel încât fiecare pereche de obiecte să apară exact într-un triplu De exemplu, pentru u = există exact un sistem triplu Steiner Trei Conținute Perechi { , , } { , }, { , }, { , } { , , } { , }, { , }, { , } { , , } { , }, { , }, { , } ( ) { , , } { , }, { , }, { , } { , , }{ , }, { , }, { , } { , , } { , }, { , }, { , } { , , } { , }, { , }, { , } Deoarece există |v(v - ) perechi de obiecte și trei perechi într-un triplu, trebuie să existe |u(u - ) triple în total; și deoarece fiecare obiect poate fi asociat cu v - obiecte, fiecare obiect trebuie să fie conținut în exact |(și - ) triple Aceste condiții implică faptul că un sistem triplu Steiner poate exista dacă și numai dacă |u(u - ) și |(v - ) sunt numere întregi Acest lucru este echivalent cu a spune că v trebuie să fie impar și nu egal cu modulo ; Prin urmare, ѵ mod = sau ( ) În schimb, în T P Kirkman a demonstrat că sistemul triplu Steiner există pentru toate v > satisfăcător ( ) Construcția sa interesantă este dată în ex Sistemele triple Steiner pot fi utilizate pentru a reduce redundanța indicilor fișierelor inversate combinate Să revenim, de exemplu, la rețetele de prăjituri considerate mai devreme din Tabel și convertiți coloana din dreapta în atributul treizeci și unu, care este dacă este necesar un ingredient special și în caz contrar Să presupunem că doriți să răspundeți la interogări de perechi de atribute all inclusive precum "Ce rețete folosesc atât nucă de cocos, cât și stafide?" Ar fi posibil să se construiască fișiere inversate pentru toate (g ) = de interogări posibile Cu toate acestea, vor ocupa mult spațiu, deoarece, de exemplu, "Pepper Cookies" va fi conținut în (^) = de liste, iar o intrare care include de atribute va fi conținută în fiecare listă! Sistemul de tripleți Steiner ne permite să îmbunătățim puțin situația În cazul a de obiecte, există un sistem Steiner de de triple, în care fiecare pereche de obiecte apare într-un singur triplu Fiecărui triplu {a, b, c} i se pot atribui patru liste: prima este pentru toate înregistrările cu atribute {a, b, c} (adică a, b, dar nu c), a doua este pentru {a, b, c}, al treilea pentru {a, b, c} și al patrulea pentru înregistrările cu toate cele trei atribute {a, b, c} Astfel, nicio intrare nu este garantată a fi inclusă în mai mult de de liste de postări, iar spațiul este salvat atunci când o intrare are trei atribute corespunzătoare triplu-ului sistemului Sistemele Trinity sunt un caz special de sisteme bloc de trei sau mai multe obiecte De exemplu, aceleași de obiecte pot fi distribuite între șase, astfel încât fiecare pereche de obiecte să ajungă exact în șase: { , , , , , }, { , , , , , }, , { , , , , , } ( ) (Această construcție a fost creată din primul bloc prin adăugarea modulo Pentru a verifica dacă are proprietățile indicate, fiți atenți la următorul fapt: de valori (a n - k Considerăm o cale în plan de la punctul ( , ) la punctul (n, r), unde r > n - k, în care i-a pasă este efectuată de la punctul (i - , j) până la punctul (i, j + I) sau (r, j - ); ultima posibilitate este permisă numai când j > , deci calea nu coboară niciodată sub axa x Există exact (£) astfel de căi Pentru fiecare dintre ele, permutarea corespunzătoare este construită folosind trei liste inițial goale astfel: pentru i = , , ,n, dacă pasul i-a crește, puneți numărul i în lista B\ dacă pasul coboară, puneți i în lista A și mutați lista maximă curentă B în lista C Permutarea rezultată este conținutul listei A, apoi listele B și C, cu conținutul fiecărei liste în ordine crescătoare De exemplu, pentru n - și k - , o astfel de procedură determină șase căi și permutări | | | | || | | || | | (Liniile verticale separă listele A, B și C Aceste șase permutări corespund atributelor compuse din ( ) ) Instruire Reprezentați fiecare submulțime de elemente t a lui S ca o cale care merge de la ( , ) la (n, n - i), al cărei pas i-a merge de la (i - , j) la (r, j' +l ) pentru i £ S și în (r, j - ) pentru i S Transformați fiecare astfel de cale într-o cale de forma descrisă mai sus [M ] (Sakti P Ghosh ) Găsiți lungimea minimă posibilă I a unei liste de referințe de înregistrare G G - -P, astfel încât setul tuturor răspunsurilor la oricare dintre interogările anexate să fie ** , * * , **, * , * , *, pentru trei chei secundare cu două valori posibile este situat în poziții consecutive [ ] Ce includ interogări la tabel vor scăpa în mod fals (a) prăjituri antice cu zahăr, (b) bețișoare de fulgi de ovăz cu curmale? [MLO] Găsiți formulele exacte pentru probabilitățile din ( ), presupunând că fiecare intrare are r atribute distincte selectate aleatoriu dintre (t) coduri ^-biți într-un câmp de n biți și că interogarea include q altfel aleatoriu ) atribute (nu vă faceți griji dacă formulele nu se simplifică) [^ ] Experimentați cu diferite moduri de a reduce redundanța textului atunci când utilizați metoda subșirurilor lui Harrison ► [M ] Numărul total de cereri de bază m-bit cu t biți definiți este în = (Ț) t Dacă o funcție hash combinatorie precum ( ) convertește astfel de solicitări în pozițiile /i, /r, ■ • •, respectiv ls, atunci numărul mediu de poziții per cerere este L(t) = (/ + / -+ ls) /s (de exemplu, în ( ) obținem L( ) = , ) Să considerăm acum o funcție hash compozită peste (mi + n (câmp de biți) construită prin maparea primilor biți ti cu o funcție hash și a r rămas cu o alta, și Li(t) și interogare Găsiți o formulă care exprimă valoarea de L(t) în cazul unei funcții compozite în termeni de Li și £ - [M J] (RL Rivest) Găsiți funcțiile L(t) definite în exercițiul anterior pentru următoarele funcții hash combinatorii (a) p t - , n = (b) p t = , n = * - * * - * - * * - * - * - - * - -> * -> * -e [M ] (R L Rivest ) Luați în considerare mulțimea Qt,m a tuturor interogărilor de bază m-biți ' (Ț) de tip ( ) în care sunt definiți exact t biți Având în vedere un set de înregistrări de m-biți S Fie ft(S) să descrie numărul de interogări în Qt m care conțin membri ai lui S și fie /t(s,m) minimul de ft(S) peste toate acestea mulţimile S cu elemente pentru și mn > pentru nft( m~n, m) LISTE S Să se arate că h este optim în sensul că infimumul este atins atunci când fiecare dintre liste este un "subcub"; cu alte cuvinte, arătați că în cazul în care fiecare listă se potrivește cu setul de înregistrări care satisfac interogarea de bază cu exact n biți definiți, inegalitatea devine o egalitate [M ] Demonstrați că dacă ѵ = n, atunci mulțimea tuturor triplelor de formă {(ai ttk-i bu bn-k) , (ai a^-i ci cn-k)s, (ai a*, i di dn-kjs}, unde j + k = i (modulo v) și j de forma k sau k + și un sistem triplu Steiner peste v obiecte există pentru toate v > de forma k + sau k + [M ] Textul secțiunii descrie utilizarea sistemelor triple Steiner în legătură cu interogări inclusive Pentru a extinde aplicarea lor la toate interogările de bază, este firesc să definim următorul concept Un sistem complementar de triple de ordinul v este un astfel de aranjament de v obiecte {хі, , хѵ, хі, ,хѵ) în triple, în care fiecare pereche de obiecte apare într-un singur triplu, cu excepția de perechi complementare {хі,хі} nu s-au întâlnit niciodată împreună De exemplu, {X , X , X }, {X ,X ,X }, {^ ,^ ,X } este un sistem complementar de triple de ordinul trei Demonstrați că sistemele triple complementare de ordin v există pentru toate v > nu de forma k + [M ] Continuând cu ex , construiți un sistem complementar de cvadruple de ordinul [M ] Construiți un sistem de patru cu ѵ = n elemente, similar sistemului de trei din exercițiu [ ] Discutați problema eliminării nodurilor din arbori cu patru arbori, arbori fc-d și arbori de corespondență ca cel prezentat în fig [NMZO] (P Elias (R Elias) ) Este dată o colecție mare de înregistrări m-bit Să presupunem că vrem să găsim intrarea cea mai apropiată de un argument de căutare dat, în sensul că cel mai mare număr de biți s-a potrivit Dezvoltați un algoritm pentru rezolvarea eficientă a acestei probleme, presupunând că vi se oferă un cod de m biți de n elemente care corectează erorile t și că fiecare intrare este hashing într-una din listele n corespunzătoare celui mai apropiat cuvânt de cod ► [ ] (W H Kautz și R C Singleton) Arătați că un sistem triplu Steiner de ordinul v poate fi folosit pentru a construi cuvinte de cod v(v - )/ v-biți astfel încât niciun cuvânt să nu fie conținut în suprapunerea lui încă doi ► [MLO] Luați în considerare următorul mod de reducere a cheilor ( n+ )-biți a~n ao ■ ■ bloc de adrese an la (n + ) biți bo ■ ■ -bn: bo -floj dacă bk-i - , atunci bk m( - ~n) b) Se va spune că un rând ABD are paritate impară dacă conține un număr impar de unități Arătați că pentru orice alegere de m - n coloane din ABD(m, n), numărul de rânduri cu paritate impară c din aceste coloane este egal cu numărul de rânduri cu paritate pară În special, fiecare posibilă aranjare a caracterelor trebuie să apară într-un număr par de rânduri *Din Associative Block Designs - Notă, trad c) Găsiți ABD( , ) care nu poate fi obținut din ( ) prin permutare și/sau adăugare de coloane d) Graficul ABD( , ) e) Graficul ABD( , ) Începeți cu ABD( , ) de la (d) în loc de ABD( , ) de la ( ) [A/d] Analizați ABD( , ) din ( ) în același mod în care ( ) a fost analizat în ( ) Câte dintre cele de poziții ar trebui verificate pentru o interogare cu k biți nedefiniți în medie și în cel mai rău caz? [MJ ] Aflați toate ABD(m, n) cu n - sau n = O nouă secțiune din următoarea ediție a cărții este planificată să fie dedicată structurilor de date JL persistente Aceste structuri permit ca informațiile modificate să fie reprezentate în așa fel încât istoricul modificărilor să poată fi recuperat eficient Cu alte cuvinte, puteți face o mulțime de inserări și ștergeri și puteți căuta în continuare ca și cum nu ar fi fost deloc actualizări după un anumit moment în timp Până acum, în această ediție au fost incluse doar referințe la literatura pe această temă: • J K Mullin, Comp J ( ), - ; • M H Overmars, Note de curs în Comp sci ( ), capitolul ; • EW Myers, ACM Symp Principiile Prog Lang ( ), - ; • B Chazelle, Information and Control ( ), - ; • D Dobkin şi JI Munro, J Algorithms ( ), - ; • R Cole, J Algorithms ( ), - ; • D Field, Information Processing Letters ( ), - ; • CW Fraser și EW Myers, ACM Trans Prog Lang şi Systems ( ), - ; • JR Driscoll, N Sarnak, DD Sleator și RE Tarjan, J Comp Syst sci ( ), - ; • RB Dannenberg, Software Practice & Experience ( ), - ; • JR Driscoll, DDK Sleator și RE Tarjan, JACM ( ), - Tabelele de instrucțiuni (programele) vor fi create de matematicieni cu experiență în munca de calcul și, probabil, cu o anumită capacitate de a rezolva puzzle-uri Traducerea la o anumită etapă a fiecărui proces cunoscut sub formă de tabele de instrucțiuni este probabil să fie o parte semnificativă a acestei lucrări Procesul de construire a tabelelor de instrucțiuni ar trebui să fie fascinant Nu există niciun pericol real de a deveni un servitor al mașinii, deoarece orice proces mai mult sau mai puțin mecanic poate fi transferat la mașină în sine - ALAN M TURING ( ) ANEXA A TABELE ALE VALORILOR UNOR CONSTANTE tabelul VALORI UTILIZATE FRECVENT ÎN SUBPROGRAMELE STANDARD ȘI ÎN ANALIZA PROGRAMELOR DE CALCULATOR ( DE CIFRE ZECIMALE) \/ = -л/З = + у/ = + vĂ = - x/ = , - ^ = , - ^ = - п = + ІпЗ = - п = + / п = + / п = - г = - ° = тг/ = + /tg = , + TG = -O ^= g ( / ) = + g ( / ) = ) = + /e = , + = , - p g = , ф = + еу = + е,г/ + sini = -cos = + - / pf, R / = I + H- / - / - | p + |v/ M, R / = I + | r / -^ - | n - |>/ pf, Salut / e \u d - | tgch / - p - | pZ, ■Н / = (+ - p - ІпЗ iar în cazul general, când E; E') Expresie condiționată: înseamnă E dacă B este adevărat și E' dacă B este fals [B] Funcția caracteristică a condiției B: (B => ; ) &kj Simbol Kronecker: =k] \znWz) Coeficientul lui zn în seria de puteri g(z) E/m Suma tuturor f(k) astfel încât valoarea lui k este i(*) este un număr întreg și R(k) П f(k) Produsul tuturor f(k) astfel încât valoarea R(*) k este un întreg și relația Wk) min/(fc) Valoarea minimă a tuturor /(£) astfel încât R(k} că valoarea lui k este un număr întreg și relația R(k) maxf(fc) R(k) Valoarea maximă a tuturor /(k) astfel încât valoarea lui k este un număr întreg și R(k) j\kj împarte k: k mod j = şi j > S\T Setați diferența: {a | a aparține lui S și a nu aparține lui T} mcd(j, fc) Cel mai mare divizor comun al lui j și k: I j \u d k \u d => ; verificați d) \ d\j,d\k / j ± fc j coprim la k: gcd(j, k) = AT Tabel dreptunghiular transpus (matrice) A: AT[j, fc] = j] aR Element invers stâng xv x la puterea lui y (când x este un număr pozitiv) xk x la puterea lui k: (k> => JJ X-, /x~k J ' =î> f[ (x+j); l/(x + fc)TIJ ' => JJ(xj); l/(x-fc)-j \ ; xVfc!) /n\Coeficient polinom (definit \Пі ț H ț • • • ț Psh / numai când n = u + pg + • • • + pt) H] LmJ Număr Stirling de primul fel: • • • kp-t => x; -x) |a| Lungimea a și Cel mai mare număr întreg care nu depășește x: max k x: min ^ , k x mod y x modulo y: (j/ = => x; x - y[x/y\) Secțiunea Sens de desemnare x = x' (modulo y' Comparabilitate (congruență) modulo y: x mod y = x mod y mare din /(n) ca n -> oo mare din /(r) ca z -> Omega mare de la /(n) când n -" oo ѳ(/(n)) Theta mai mare decât /(n) ca n -> oo logb* Logaritmul unui număr x față de baza b (când x > , b > și b / ): y astfel încât x = bu Inz Logaritm natural: loge x lg* Logaritmul de bază al unui număr x: log x funcția exponențială a lui x: ex (*n) Secvență infinită Xq, Xi, Xi, (aici litera p face parte din denumire) /'(*) Derivată a lui f în raport cu x f "(F) Derivată a doua a lui f în raport cu x f(n\x) n-a derivată a lui f față de x: (n = => /(i); q' (*)), unde q(x) = /(n )(:r) Număr armonic de ordin x: Y /kx ] - [i ) G(t) Funcția gamma: (x - )! - y(x, oo) (^ /) Funcție gamma incompletă: e~ttx~ dt Constanta Euler: ітп > (Рп - Іпp) e Baza logaritmului natural: p>o Vp! D Raportul dintre circumferința unui cerc și diametrul acestuia: En>o(- )n/( n+ ) Infinit: mai mare decât orice număr O legătură nulă (pointer fără adresă) Șir gol (șir de lungime zero) Secțiunea Sens de desemnare Un set gol (un set care nu conține elemente) Ф Raportul de aur: |( + Ub) Funcția Euler: - -n] i și q(i) = p(k) pentru unele k > i Deoarece КрІ,- Kn, fie a, , Z -> z; apoi sortăm lexicografic perechile formate Ca rezultat, obținem, de exemplu, tex a, Â -> a etc , eliminând cratimele și punctele Fie p( ) = și p(( a) ) = p(|a|)a; aici ( a) este reprezentarea binară obișnuită a unui număr întreg pozitiv și |a| - lungimea șirului a Atunci p( ) = , p( ) = , p( ) = , p( ) = , , p( ) = , , p( ) = , , p( ) = etc Lungimea lui p(n) este |p(n)I = A(n) + A(A(n)) + A(A(A(n))) + • • • + lg*n + , unde A( ) = , A(n) - [lg n] pentru n > , iar lg*n este cel mai mic întreg mn > astfel încât A^n-(n) = [Această construcție este propusă V I Levenshtein, Problems of Cybernetics ( ), - ; vezi și D E Knuth în The Mathematical Gardner, editat de D A Klarner (Belmont, California: Wadsworth Internațional, ), - ] Este posibil un debordare, care poate distorsiona rezultatele comparației Ar fi trebuit să scrie, de exemplu, "LDA A; SIRA B" și verificați indicatorul de comparație (Incapacitatea de a compara numerele întregi care ocupă un cuvânt întreg prin scădere este o problemă care apare pe multe modele de computer; acesta este motivul principal pentru includerea operatorilor CIPA, , CMPX în setul de instrucțiuni de calculator MIX ) COMPARA STJ F DECI H LDX A, LR B SMPX B, H JMP * JNE F Soluția bazată pe identitatea min(a, ) = |(a + b - |a - |): SOLI LDA A" SRAX SRAX ADAUGĂ AB DIV = = ENTX STA Al a = u + a SLAX STX A |а | IO : LDA TA LDA TV INC SRAX SRAX INC DIV = = DIV = = INC , STX TEMP STX TEMP LD TMIN LD TEMP LD TEMP LDA STA TA STA TV STA C (Acest program scanează biții din reprezentarea binară a lui a și b de la dreapta la stânga, păstrând biții de semn ) Puneți următorul tabel la sfârșitul textului programului: HLT CON C - - CON IN - CON B + - CON A - TMIN CON C CON B CON A - CON A CON C Probabilitatea este egală cu suma (r + j ) (- ) J (r ^ J) xr + ' #) pe care o obținem prin metoda includerii și excluderii (exercițiul - ) Aceasta poate fi scrisă și ca distribuție beta r(Nr)JoxP~\lt)N-rdt Sortați conținutul benzii, apoi numărați (Unele metode de sortare facilitează eliminarea înregistrărilor cu chei duplicate ) Atribuiți fiecărei persoane un număr de identificare individual, care ar trebui să fie indicat pe toate cardurile care îl privesc Sortați informațiile și cardurile fiscale separat, folosind numărul de identificare ca cheie Să notăm cardurile fiscale sortate ca ?i, , R,\, iar cheile lor ca Ki Ki, atunci creșteți r cu și repetați acest pas b) Dacă К c, atunci setați j x, x par => c - x) Un algoritm similar poate fi folosit și pentru a găsi max{m, + Xj | хі + Xj i} în două fișiere sortate - хі y', treceți mai departe în fișierul G; iv) dacă x > z, treceți la fișierul H Când ajungem la sfârșitul fișierului F, sortăm G' după a doua componentă și îmbinăm G cu acesta; apoi înlocuim t cu t, F cu F', G cu G' Astfel, t ia valorile , , , ; pentru un t fix, sortarea necesită treceri O(log N) Prin urmare, numărul total de treceri va fi O((logAr) ) În cele din urmă (>:\' va fi executat și fișierul F va fi gol; apoi rămâne doar să sortăm G după primele componente (Ideea soluției îi aparține lui D Shanks ) Pregătiți două fișiere, dintre care unul conține numerele amn modp, iar celălalt - ba~n modp, m Din această definiție a operației rezultă că timpul necesar calculării a o / este proporțional cu |a o = |a| -[ | Mai mult, se poate arăta că operația o este asociativă și că [hi, ] o [ , ] o ■ ■ ■ o [ n, n] = [ , ai][ , ar] ■ ■ ■ [ , an]- Expresia din partea stângă poate fi calculată în [lg n] treceri, combinând perechi în lanțuri pe fiecare dintre ele, adică în doar O(n log n) pași Exemplu Începând cu ( ), ne-am stabilit scopul de a calcula [ , ] o [ , ] o [ , ] o [ , ] o [ ] o [ , ] o [ , ] o [ , ] o [ , ] După prima trecere, această expresie devine [ , ][ , ] o [ , ][ , ] o [ , ][ , ] o [ , ][ , ] aproximativ [ , ] A doua trecere îl transformă în [ , ][ , ][ , ][ , ] o [ , ][ , ][ , ][ , ] o [ , ] A treia trecere va avea ca rezultat [ , ][ , ][ , ][ , ][ , ][ , ][ , ][ , ] o [ , ] După a patra trecere obținem ( ) Motivație Un șir ca [ , ][ , ] reprezintă "eeee uZi°°", unde "și" înseamnă un decalaj; operația a o to inserează goluri și umple de la la în locul golurilor din a Rețineți că, spre deosebire de ex , se obține un algoritm pentru rezolvarea problemei Joseph, care necesită timp proporțional cu O(logn) în loc de O(mti) Astfel, am răspuns parțial la întrebarea pusă în ex - O altă soluție la această problemă (O(n log n), care necesită doar RAM) rezultă în mod evident din tehnica B-tree Începeți cu bi = bz = • ■ ■ = bn = Pentru k = [IgnJ, [IgnJ - , , , faceți următoarele: setați xs bj pentru toate i Cj pentru toate i > J); (c) bj = dacă și numai dacă (c, - i j); (d) Cj = dacă și numai dacă (bj + i c / ), |(- , , x/ ), |(- ,- ,Y ) suma acestor vectori este egală cu ( , , \/ ) și este diferența dintre vârfurile și ) Există o soluție care are o formă mai simetrică - pentru a reprezenta vârful r în spațiul cu patru dimensiuni, după cum urmează: I (u, v) este inversarea permutației r}, unde ei = ( ), er = ( ), ez = ( ), s = ( ) Deci ( , , , ); ( , , - , ); ; "-> (- , - , , ) Toate punctele se află subspațiu tridimensional {(w,x,y,z) | w+x+y+z= }; distanța dintre vârfurile adiacente este y/ În mod similar (vezi răspunsul , (f)) se poate reprezenta mr = ai ar ca prin vector (ai, a'r, a' , ), unde ai ai a' a\ este permutarea inversă (O astfel de reprezentare -D a octaedrului trunchiat prin permutări ca coordonate a fost luată în considerare, împreună cu o generalizare la spațiul n-dimensional, de către C Howard Hinton în The Fourth Dimension (Londra, ), capitolul Mulți ani mai târziu, alte proprietăți au fost găsite de Guilbaud și Rosenstiehl, care au numit obiectul prezentat în Fig un permutaedru (vezi exercițiul ) Copiile octaedrului trunchiat umplu spațiul tridimensional în ceea ce se numește de obicei cel mai simplu mod [cf H Steinhaus, Instantanee matematice (Oxford, ), - ; CS Smith, Scientific American (ianuarie, ), - ] Cartea a V-a a Colecției Pappus ( d Hr ) menționează octaedrul trunchiat ca fiind unul dintre cele treisprezece corpuri explorate de Arhimede Un exemplu de solid arhimedian este un poliedru neprismatic, al cărui vârf este simetric față de oricare altul și orice față este un poligon regulat, dar nu toate sunt identice Poate fi găsit, de exemplu, în WW Rouse Ball, Mathematical Recreations and Essays, revizuit de HSM Coxeter (Macmillan, ), capitolul , sau H Martyn Cundy, AP Rollett Mathematical Models (Oxford, ), - (a) Evident, (b) Construiți un graf direcționat cu vârfurile { , , , n} și un arc mix x -> y dacă fie x > y și (x, y") E, fie x ar -> az - > ai poate fi redus (fie ai -> az, fie az -> ai) Dar un ciclu orientat de lungime conține două arce fie din E, fie din E, și astfel se demonstrează că fie E, fie E nu este tranzitiv [G T Guilbaud, R Rosentiehl, Math et Sciences Humaines ( ), - ] Să presupunem că (a, b) £ E, (b, c) E, (a, c") E Atunci pentru unele k > avem a = xo > xi > ■■• > Xk - c, unde (xi,Xi+i) £ E(mi) U E(mr) pentru Dar dacă r > b, atunci (xi, b) £ E ar contrazice minimalitatea lui k și din faptul că ar urma (xi, b) E E, (a, b) E E xi) £ E și (b, xi) £ E sunt imposibile Pentru orice alegere fixă a bm, ,bm-i,bm+i, ■ • • ,bn în tabelul de inversare în suma t, bi se presupune că fiecare rest modulo m apare exact o dată când rulează bm prin toate valorile posibile , , , m - Construcția propusă în indicație preia perechi de compartimentări în părți diferite una în alta în toate cazurile, cu excepția a două: j = k = pk și j = k = pk - În aceste cazuri speciale, n este egal cu ( J - ) +-• -+j = ( j - j)/ și ( /)+-■ •+(/+!) = ( J +j)/ și există o partiție unică nepereche în j părți [Dovada originală a lui Euler în Novi Comment Acad sci Animal de companie ( ), - , de asemenea foarte interesant Folosind transformări simple, el a arătat că produsul infinit este egal cu si dacă definim sn ca o serie de puteri - z n - z n~lsn+i pentru n > O versiune finită a sumei infinite Euler este considerată de Knuth și Paterson în Fibonacci Quaxterly ( ), - ] Transpuneți diagrama de dispersie pentru a merge de la p la P Funcția de generare pentru P este destul de ușoară, deoarece puteți alege mai întâi orice număr de uni (funcția generatoare /( - z)), apoi alegeți independent orice număr de doi (funcția generatoare /( - r )), și, în final, orice număr de numere n Coeficientul znqm în prima identitate este egal cu numărul de partiții ale numărului m în cel mult n părți În a doua identitate, este egal cu numărul de partiții ale numărului m în n părți diferite nenegative, adică este suma m = pi + p + • • • + pn, unde pi > p > ■ ■ ■ > pn > Este la fel ca și partițiile m - Q) = qi + q + • ■ ■ + qn, unde qi > qr > • • • > qn > , deoarece se poate stabili un one- corespondența la unu qi = pi - n + i [Academia Coramentarii; Scientiarum Petropolitanae ( ), - ] Cometariu A doua identitate se obține prin trecerea la limita η -> oo ca urmare a teoremei q-nomiale (vezi exercițiul - ) În mod similar, obținem prima identitate prin trecerea r -> oo în forma duală a acestei teoreme, demonstrată în răspunsul la același exercițiu Fie n!, = Π^=i ( + Identitatea rezultată exp (z) exp-i (-r) = este echivalentă cu formula ) h Gh/ -h -G"Gh = ^>o, numere întregi n > , ( - Xj (r) j la і aj+i pentru j > i Astfel, fiecare j pentru aj > aj+i corespunde indicilor , , j calculați o dată [Guo-Niu Han, Progrese în matematică ( ), - ; același rezultat este obținut de Rawlings în contextul următorului exercițiu ] Să presupunem, de exemplu, că n = și = Atunci numărul de lovituri goale înainte de fiecare letal ar trebui să fie + fci, + &r, + k , + k , k&, unde kj este ceva întreg nenegativ Rețineți că permutarea duală corespunde tabelului h din notația exercițiului anterior În cazul general, probabilitatea unei serii ai a an va fi egală cu E ( ?"+p/g P )( L"' +(P" % ) • • • ( n +UPn) - - ~ n J " L" - " - r ■■' - Â Li • • p, unde pj = - j este probabilitatea unui rezultat fatal după j - lovituri fatale anterioare și hi h ■ ■ hn corespunde secvenţei duale ai ar ■ ■ ■ an În special, pentru ₽! = ••• = pn=P = - obținem probabilitatea qhl+"+hn/Gn(q) Astfel, va exista un ordin de n [J Treadway, D Rawlings, Math Mag ( ), - ; Rawlings a generalizat acest rezultat la permutații de multiseturi în Int J Math & Math Sci ( ), - ] Fie ao = Spunem că coborârea generalizată apare pentru j t(aj+i) După introducerea n între aj-i și aj, apare o nouă coborâre generalizată dacă și numai dacă a; i j? > • • • > jk > ; fie o altă valoare a lui j jn > jn-i > • • • > jk+i- Atunci jn = n şi se poate arăta că indicele generalizat creşte cu n - k când n este introdus chiar înainte de aJfc [Cazul special în care t(J) = j + d pentru unele d > este considerat de D Rawlings, J Combinatoria! Theory A ( ), - ; el a generalizat-o la permutarea multimurilor în Linear and Multilinear Algebra ( ), - În acest exercițiu, n! diferite statistici de permutare, fiecare dintre ele având o funcție generatoare Gn(z)- derivate în ( ) și ( ) Este posibil să se determine mult mai multe astfel de statistici prin generalizarea formulării problemei ruletei rusești după cum urmează: după j - lovitură fatală, începe un nou cerc cu participantul /Даі, ,а>-і), unde fj este o funcție arbitrară care ia valori { , , n} \ {ai, ,a> i} [Cm Guo-Niu Han, Calcul Denertien (Teză, Univ Strasbourg, ), Partea , § ] (a) Dacă ai an, h(a) are n - inversiuni mai puține, deoarece Xj își pierde inversiunea an și inversarea fiecărui element în aj Astfel, dacă punem xn = an și redefinim recursiv xi ,xn-i = /(h(a)), atunci permutarea f(a) = xi xn va avea proprietățile dorite Obțineți /( ) = și /î ( ) = (b) Aici relațiile cheie sunt ipv(a) = ipv(a ) și ind(a~) = ind(/(a)~), dacă a~ este inversul lui a Astfel, dacă = a-, a = f(ai), az = a , " = /^ \az) și a = aȚ, obținem inv(a ) = inv(a ) = ind(a ) = ind(a ) - ind(ai ) = ind(a); ind(a ) = ind(aȚ) = ind(a ) = ind(a ) - inv^) = inv(a) [Matematică Nachrichten ( ), - ] (Soluție de Doron Zeilberger ) Media inv(a) ind(a) este [ai>afcl ["'>a , pe baza ( ) și ( ) Considerând qn ■ ■ • ? Qi ca o permutare a unei multimi multiple, se obtine inv(ai a an) = inv(gn q qi) (vezi Sectiunea ) Prin urmare, folosind notația de la răspunsul la ex și rezultatele ex - , obținem Drept urmare, avem o identitate elegantă j,k>o - wizku Hn(w, z) un ( - w)(l - w ) (l - wn) ( - z)(l - z ) (l - zn)' din care apare funcţia generatoare necesară Hn(w, z) = wlnd(" )r nc (") (cea din urmă a fost obţinută de D P Roselle în Proc Atet Math Soc ( ) , - ) În ex arată că aceeași funcție cu două variabile calculează indici și inversiuni Dovada dată aici se datorează lui Garsia și Gessel [vezi Progrese în matematică ( ), - ], care au căutat să obţină un rezultat substanţial mai general Dacă în ex - punem m = oo, apoi ajungem la relația de recurență Înlocuirea reciprocă a două elemente corespondente modifică valoarea decalajului total cu sau ± ; prin urmare, deplasarea totală td(ai ag • an) ipv(ai a an) Să presupunem că j este cel mai mic element care este deplasat și ai = j Fie I maxim, iar I k Schimbul reciproc de ai și aj reduce numărul de inversiuni cu (k - Z) - , iar deplasarea totală - cu (fc - I) Astfel, dacă sortarea unei permutări date ai ar an necesită m iterații ale acestui algoritm, obținem td(ai a an) = inv(ai a an) + m Cometariu Prejudiciul total mediu al unei permutări aleatoare este (n - )/ (vezi exercițiul - ) Funcția generatoare pentru părtinirea totală medie nu are o formă simplă Puteți obține r ca produsul ipv(tr) al operațiilor de transpunere Tj, unde operația Tj schimbă j și j + De exemplu, calea -e -e -e din fig corespunde lui t , apoi lui tz, apoi lui n; prin urmare, = mint Astfel, este posibil să se obțină rmt' din r' efectuând operații de transpunere ipv(tr), fiecare dintre acestea va modifica numărul de inversiuni cu ± De aici rezultă că ipv(tgtg') ; în continuare, Fie j astfel încât - ( c) H (e a) > - (c d) - - (d e), iar aceasta este o contradicție (Vezi și următorul exercițiu ) Scopul nostru este să arătăm că dacă p( ) p(i) este o permutare a mulțimii { , , • • • > Pn > , pe de altă parte Această corespondență, ca și mai înainte, este determinată prin atribuirea tuturor elementelor qj a unui indice mai mic; ea satisface condiția S(gi) b S(gm) = ind(ai an) + (pi -bPn), unde (q;) înseamnă suma elementelor multimei qj [O generalizare suplimentară a tehnicii utilizate în această demonstrație și derivarea relației -( ) este dată în D E Knuth, Math Comp ( ), - Vezi, de asemenea, studiul exhaustiv al lui Richard P Stanley, Memoirs Amer Matematică soc ( ) ] (a) Fie S = { l = (ub r>),>> astfel, suma greutăților peste toate elementele din Po( * nі tn Folosind ( ), obținem formula k kp = y r= la k - z n + k - s - j n s= j= Pentru s este par, atunci, în conformitate cu proprietatea de simetrie ( ), suma devine Rețineți că ( ) implică acum o identitate curioasă pentru numerele Stirling: ѵ / S k- \u d V "+ i ( ~ P + ) IfcJ (- )* n + (-l)n+m(") (Luați în considerare coeficientul la zm+ în ( ) ) (t) = (k + )p - kp = (k + ) - k = modulop pentru > / j> k>o\j>o / k> Da [FN David, D E Barton, Combinatoria! Chance ( ), - ; vezi si raspunsul la ex ] [Combinatory AnaJysis ( ), ] Răspunsul se obţine prin metoda includerii şi excluderii De exemplu, l/(Zi + r)! W (/ + h + /e)! există probabilitatea ca хі hk(z)x* = -g(x,z)(l - zj + -z - r -F - - v ' lx v lx e^-^-x lx Astfel hi(z) = ez - (e - l)/z; / ( ) = (e - zez) + e - (e r - l)/z Fie Mn = Li + • ■ • + Ln valoarea medie; atunci Mnxn = h'(l, x), unde derivata este luată față de z și este egală cu m/(e-c- - x) - x/( - x) - M(x) Conform teoremei reziduurilor -І M(z)z n dz = Mn - (n + |) + + - + - tgg J l zi - zi - dacă integrala este preluată peste un cerc de rază r, unde |zi| i tk>iD(ti, ,tfc i,n,l), unde D(h, Iz, • • ■ Jk) este determinantul McMago pe de la ex Extinderea acestui determinant în termenii elementelor primului rând, obținem Pkp = coP(ki}n + ciP(k )n H bsk-grPip - Ek(ti), unde Cj și Ek sunt definite după cum urmează : c' ° £>, ѵ ' k \kZ) (n + + m)!' m> ' ' Fie Pon = , C(z) = Cizi - (fil ~ )/( - z) Și fie EM \u d ^Ek + M ^k \u d l~ez + n,k -ez) ez -lz ( - a:)(l - x - z) **" z(l - x) Relația de recurență rezultată este echivalentă cu formula C(x)H(z,x) = H(z,x)/x + E(z, x); deci H(z,x) = E(z,x)x(l - x^/^xe - - ) Extindem partea dreaptă într-o serie de puteri, ajungem la relația Hi(z) = /ii(z) (vezi exercițiul ); L (z) = e/ii(z) + - e [Cometariu Funcțiile generatoare pentru primele trei serii sunt derivate de Knuth în SACM ( ), - În Barton, Mallows, App Matematică Statistica ( ), , se derivă formula - Hn+i(z) = ( - fn(z))/(l - z) - Lnhi(z) pentru n > , precum și formula ( ) O altă abordare pentru rezolvarea acestei probleme este prezentată în ex Întrucât seriile învecinate nu sunt independente, nu există o legătură simplă între problema rezolvată aici și rezultatul mai simplu al exercițiului (cel din urmă este probabil mai util) ] [Combinatory Analysis ( ), - ] Numărul de moduri în care elementele unui multiset pot fi plasate în t celule distincte este N / H + Pі - \ I + - \ / + Vin ~ \ la / la / la vineri /' deoarece există ( aj+i fie aj-i > aj este egală cu + |(m - ) Fiecare permutare a multimii { , , , n - }, care are k serii alternante, atunci cand un nou element n este introdus in toate pozitiile posibile, genereaza k permutari cu k astfel de serie, permutari cu k + serie și n - k - permutări cu k + serii Prin urmare, Este convenabil să puneți |^| = are forma Yn = ±((n - )yn-i + |n - + ) Să punem yn = an + / n + și, rezolvând ecuațiile pentru a, (}, , obținem yn = |n - n + A pentru n > , n > Aceste formule pentru așteptarea și varianța matematică au fost obținute de J Bienheim și sunt date fără dovezi [Bull soc Matematică de France ( ), - ; Comptes Rendus Acad sci Paris ( ), - , vezi și nota lui Bertrand la p ] Relaţia de recurenţă pentru ((£)) a fost obţinută de D Andre [Comptes Rendus Acad sci Paris ( ), - ; Annales Scientifiques de l'Ecole Normale Superieure ( ) (Paris, ), - ] Andre a atras atenția asupra faptului că pn(- ) = pentru n > Astfel, numărul de permutări cu un număr par de serii alternante este egal cu n\/ De asemenea, a demonstrat formula pentru așteptarea matematică și a determinat numărul de permutări care au numărul maxim de serii intercalate (vezi exercițiul - ) Se mai poate arăta că n > , unde o Gnj ( k), unde anj - (") sunt soluțiile pentru cazul (a) Acest lucru duce la ținând cont de rezultatul ex [În cap Cartea lui Riordan Introducere în Combinatoria! Analiza (Wiley, ) analizează cazul general al plasării turnului ] Într-o demonstrație directă a acestui rezultat, scrisă de E A Bender, fiecare partiție a mulțimii { , , , n} în fc submulțimi disjunse nevide corespunde unui aranjament de n - k turnuri Fie partiția să fie: { , , , n] - {ai , ^ , , Gini} C • • ■ U {ojfci, , , unde aij r elemente, ari = j + , , a,it = j + t, unde ii ftm + pentru toți m din intervalul ik r - , această permutare are r - crește Prin urmare, are n + - serie r Mai mult, dacă r > , necesită exact n + - [n/r] citiri Este posibil să aranjați diferit elementele în {fcr+l, , fcr+r} fără a modifica numărul de rulări; în acest fel numărul de citiri poate fi redus la orice valoare dorită > [p/g] Acum să presupunem că rs > n, r + s După cum se arată în Ex și , putem presupune că r n + - [n/r] și r > Pentru a completa demonstrația, putem folosi o permutare a formei &+ k- n+ -r n+ -r k+ k n+ -r n - n, care are n + - r serie și n + - r - k citiri, ffm(n,x), unde gm(u,x) = Pr(u x sau u > Xi > • • ■ > Xm Xi > ■ • ■ > Xm) - Pr(u Xi > ■ ■ • > Xm > x) = (um + ( - u)m + |w - x\m)/m\ Prin urmare, g(u,x) = e" + e "" - - el"-(r)l și obținem fa(x) = e - - e(r) - e -(r) Se poate arăta că D(x) tinde spre valoarea limită ( cos(x - |) - sin | - cos |)/( sin | - cos |) Lungimea medie a unei curse care începe cu x este ex + e I - ; astfel, lungimea celei de-a k-a serii îndepărtate £*■ este egală cu JQl fk(x)(ex + e -(r) - l)dx; £i = e - ~ , ; £r = Ze - e + n , Rezultate similare sunt disponibile în Secțiunea Certându-ne ca înainte, obținem ca rezultat + £ V + t Aici coloanele sunt "deplasări" succesive în sensul ( ), care se formează la introducerea lui p, Rândurile și reflectă operațiunile de pe rândul (cf ( )) Dacă eliminăm coloanele al căror al doilea rând conține elementul oo, atunci rândurile și formează o matrice "deplasată", ca în ( ) Metoda formulată de tranziție de la șir la șir k + nu este altceva decât algoritmul pentru determinarea claselor descris în această secțiune (a) Analizați diferite cazuri Luați în considerare mai întâi efectul asupra rândului și efectul asupra secvenței de elemente împinse din rândul , apoi extindeți analiza prin inducție la o diagramă de o dimensiune dată (b) Folosind schimburi admisibile, se pot modela operațiile algoritmului I prin reprezentarea diagramei înainte și după executarea procedurii ca o permutare canonică De exemplu, un număr de schimburi admisibile pot fi transformate V ȘI (vezi ( ) și ( )) Schimburile admisibile sunt simetrice în direcția de la stânga la dreapta, iar permutarea canonică pentru Ρ intră în Ρ într-un mod evident dacă elementele sunt introduse în ordine inversă, Vom presupune că există doar t clase; dintre care exact k au un număr impar de elemente, întrucât elementele clasei au forma (Ріі Рч) (vezi ( ) și ( )) Tabloul de două linii preempționat are exact t - k puncte fixe, ceea ce decurge din modul în care a fost format Prin urmare, prin inducție, o diagramă fără primul rând are t - k coloane de lungime impară Astfel, t elemente din primul rând au ca rezultat k coloane de lungime impară pe toate diagramele Numărul de coloane, și anume lungimea rândului , este egal cu numărul de clase (exercițiul ) Numărul de rânduri este egal cu numărul de coloane din RT În continuare, aplicând rezultatele ex (sau Teorema D), completăm demonstrația O diagramă P care conține mai mult de n elemente trebuie să aibă fie mai mult de n rânduri, fie mai mult de n coloane Totuși, există și o diagramă n x n [Acest rezultat a fost demonstrat pentru prima dată în Compositio Math ( ), - ] Astfel de permutări au o corespondență unu-la-unu cu perechi de diagrame de forma (n, n, , n); astfel, luând în considerare ( ), răspunsul este: /p ! M( n- , n- , , n)\ / n ! V ( p - )! ( p - )! p! ) ~ \( n - )( n - ) n"(n - I)"- I Este cu adevărat uimitor că o formulă atât de simplă este soluția la această problemă Acum putem număra numărul de permutări { , , ,mn} care nu au secvențe crescătoare mai lungi de m și nici secvențe descrescătoare mai lungi de n Demonstrați prin inducție că la pasul S ambele tablouri, P(r !) și Pr( i), sunt mai mici decât P(r+ ) și Pr(z+ ) Desigur, mai trebuie să știm ce element a fost mai devreme în locul lui Rc Este apoi posibil să se restabilească diagrama la forma sa originală folosind un algoritm foarte asemănător cu S /n + \ /n + \ (pt+m\ ( m+ \ , , " y + ) + "' + \ ) ~ la / - THIS ° PATH" luată în general dificultăți Valoarea minimă este egală cu suma primilor n termeni ai șirului , , , , , , , , , în ex , , - ; această sumă este de aproximativ ^/ / n ^ (Pentru aproape toate diagramele de n elemente, estimarea pentru valoarea minimului se apropie foarte mult de această limită, după cum rezultă din Exercițiul Prin urmare, numărul mediu de ori S este utilizat este Ѳ(n / ) ) Fie elemente ale mulțimii { , , ,n} să participe la permutare, astfel încât a, = și să presupunem că a; = Cazul , j i Să aplicăm rezultatul cazului la RT, ținând cont de rezultatul ex și faptul că (PT)S = (PS)T Ca și în ( ), permutarea dată ca exemplu corespunde diagramei prin urmare, numărul dorit este /(Z, m, n) = (Z + m + n)! (Z - m + )(Z - n + )(m - n + )/ (Z + )! (t + )! (P)! cu condiția, desigur, ca Z > m > n După cum rezultă din teorema H, de moduri Deoarece polinomul q este antisimetric în x, el dispare când xi = Xj-, prin urmare, este divizibil cu xr - xj pentru tot i ■ ■ ■ > Pj > , Pi + ■ • ■ + Pj = m - k (Acest rezultat a fost obținut împreună cu E A Bender în ) Pentru m = răspunsul este (s( ) + (n - )s(l)y + (")i/ ) D(a:i, • ■ ■, xn); pentru m = obținem (s ( ) + ((n - l)s( ) + s(l, ))y + (n" )s(l)t/ + Q)t/ ) D(a:i , • ,xn), etc Într-o altă expresie, bk este coeficientul lui zm în expresie a \ ( A -L+ ( & + A / / i jt + іГ -i + іГіг +i + Гг + unde аі = '% і N și n > , numărul de căi este evident Pentru m = N raspunsul este: P + t - \ t - / det P + t - \ (pt \ ) IO/' Dovada Putem presupune că pt = , deci dacă pt > , primele pt coloane ale matricei ar trebui să fie completate cu numerele i din rândul i, iar apoi putem considera forma rămasă (pi - pt, , pt - pt) Aplicând inducția pe m, obținem numărul de moduri det ki + m - n , elementul n trebuie să fie într-una dintre pozițiile cele mai din dreapta într-un șir Dacă îl puneți în celula din extrema dreaptă a chiuvetei, puteți obține '][ ) Ar*-i An * moduri de a completa restul celulelor Lăsa L(") ~ A n-iz n /( n - )! = |(p(z) - p(-z)); n > Apoi h(z)ff(z) = (rA:- ^^gk-іАn-gl+іg"/"! = ( An+iz n!J - =р'(г) - fc,n> n> ' În expresia pentru h(z)y(z), înlocuim z cu -z, adăugăm expresiile originale și transformate - și obținem h(z) - h'(z) - ; deci h(z) = tanz Punând fc(z) - g(z~) - h(z), avem h(z) fc(z) = fc'(z); deci fc(z) = secz și g(z) = sec z+tan z = tan(|z+ |tr) Coeficienții Ain sunt astfel numerele Euler |Esn|, iar coeficienții Azn-i sunt numerele tangentei Tsn-i = (-l)n n( n - )B P/( n) (vezi Exercițiul - ) Tabelele acestor numere sunt disponibile în matematică Comp ( ), - ; începutul secvenței (Ao, Ai, Az, ) = ( , , , , , , , , , , ) Cel mai simplu mod de a calcula numerele tangente și Euler este probabil construirea unui tablou triunghiular Aproximativ O în care sumele parțiale se formează alternativ de la stânga la dreapta și de la dreapta la stânga [A J Kempner, Tohoku Math J ( ), - ] În cazul general, dacă un este numărul de permutări ale mulţimii { , , , n} care nu conţin cicluri a căror lungime este mai mare decât k, atunci Y] dn*rn/n! = exp(z + z / + ■ ■ ■ + zklk')\ Acest lucru poate fi demonstrat prin înmulțirea exp(z) x • • • x exp(z*/fc), rezultând >P( £ l/Pj!^! ) n 'J +ОJ H -l-fejfc=n ' (Vezi și exercițiul - ) În mod similar, exp(Ș gs z ") este funcția generatoare corespunzătoare pentru permutările ale căror lungimi de ciclu aparțin mulțimii date S Integrala de la la oo este egală cu n^+ ^ Γ((i + )/ )/ ^+ ^ , deoarece poate fi redusă la funcția gamma (în exercițiul - t = x /^/n) Astfel, integrând de la -oo la oo, obținem dacă t este impar, în caz contrar n((+ )/ ^/) t!/ ^ t+ ^ (t/ )! (a) Dacă n Гi+i și c, > Ci+i, cu siguranță nu obținem i + a;+i urmează c, > c;+b (Se consideră rândul și succesiunea elementelor "deplasate" ) (c) Aceasta rezultă din Teorema D, (c) Acest rezultat a fost obţinut de A M Vershik şi S V Kerov (Report AN SSSR ( ), - ); vezi, de asemenea, B F Logan, L A Shepp, Advances in Math ( ), - [J Bike (J Baik), P Deift (R Deift) și K Johansson (K Johansson) au arătat în că abaterea standard este egală cu Ѳ (n , / ); în plus, probabilitatea ca lungimea să fie mai mică de ^/n + tn ^ tinde să exp(- /^(x - t)u (x)dx), unde (x) și u(a:) sunt asimptotele din funcțiile Airy Ai(a:) ca x -> oo ] Numărul mediu de subsecvențe crescătoare de lungime I este (Y)//!- (După cum rezultă din exercițiile și , probabilitatea ca cea mai lungă secvență crescătoare să aibă lungime > v/n sau / dt/\/ Tr Atunci mo = mi = si mn+i - mn = daca integra pe părți Astfel, mn = tn datorită ( ) Adevărat; aceasta este egală cu det(tm) =i (D'\)- [Mitchell în Amer J Math ( ), - , a arătat că acesta este numărul de termeni din expansiunea funcției simetrice, care se numește acum funcția Schur Desigur, dacă , mergeți la pasul NC În caz contrar, dacă i , micșorați j cu , atribuiți r și repetați acest pas În caz contrar, opriți procesul (matricea q este acum setată la zero) NZ [Scăderea P(i+i)k, creșteți Z cu și reveniți la pasul H În caz contrar, dacă k > j, micșorați k cu și reveniți la pasul H În caz contrar, reveniți la pasul H | Primul zigzag pentru o coloană dată j se termină cu un increment pnij, deoarece pij Fiecare cale succesivă pentru coloana j este sub sau la același nivel cu cea anterioară, deci de asemenea se va termina cu pntj Inegalitățile care sunt utilizate în această metodă indică faptul că algoritmul construit este inversul celui descris în formularea problemei [J Combinatoria! Teoria A ( ), - ] (a) Coeficientul lui zm este numărul de soluții m - ^hijqij, astfel încât rezultatul exercițiului anterior poate fi extins la acest caz (b) Dacă u, , ak sunt orice numere întregi pozitive, putem demonstra prin inducție pe k că [zm] /( - z)(l - Z ) ( - Y *) = ((tm))/u ^ + GSp?- ) Numărul de partiții ale lui m în cel mult n părți este astfel (^ ^)/n! + O(mn ) pentru n fix, după cum urmează din ex - Acesta este și numărul asimptotic de partiții m = pi -I - hPn, când părțile sunt diferite - pi > ■ ■ ■ > pn > (vezi exercițiul - ) Asa de Astfel, numărul de partiții în plan invers se apropie asimptotic de N(^ ^/n\ + O(mn ) dacă există N diagrame de o formă dată din n celule Din punctul (a) acesta este și (n-i)/n ^O + O(m~ ') [Studies in Applied Math ( ), - , - ] Compartimentarea plană pe un dreptunghi este echivalentă cu împărțirea plană inversă, astfel încât lungimile colțurilor ne oferă funcția generatoare Dacă punem r, c -> oo, atunci obținem răspunsul într-o formă foarte elegantă: /( - r)( - r ) ( - z ) Tranzacții ( ), - , - , dar acolo a luat o formă mult mai complexă Prima dovadă simplă a fost găsită de Leonard Carlitz, Acta Arithmetica ( ), - ] (a) Probabilitatea este /n pentru k = I = ; in caz contrar, prin inductie pe k + I, obtinem pr(І \ {Ф}, j) + pr(І, J \ {jo}) (^ірб + Rg(a i), atribuiți Pma "- P(r i)s și r j și Qt este impar, atunci, argumentând în mod similar, concluzionăm că permutarea n(n - ) necesită n + operații Fie Ck numărul de cicluri de lungime k din multigraful de la răspunsul la exercițiul anterior Limita superioară pentru valoarea medie a lui Ck poate fi găsită după cum urmează Numărul total de &-cicluri potențiale este fc(n + )-/( fc), deoarece putem alege (n+ )-cai o succesiune de k muchii distincte din {Or - нl, • • • ,tir - (n + )l } și orientați-le în k moduri Astfel, fiecare ciclu va fi numărat de k ori, inclusiv cazuri imposibile precum (Ir l r l), (Ir l l r r l) și (Ir l r l l r r l l r) Dacă k n + - Ec >n - Hn dintre ei [Această dovadă folosește ideea lui V Bafna și P Pevzner, SICOMP ( ), - , care au studiat problema mai dificilă a sortării unei permutări nesemnate prin inversare În această problemă, am luat în considerare permutările care pot fi scrise ca un produs al ciclurilor netăiate ( )( )( ) care se termină fie în (n- n) fie în (n- ) n - n) în funcție de faptul că n este par sau impar S-a dovedit că astfel de permutări sunt cele mai dificil de sortat ] SECȚIUNEA Da; і și j pot varia în intervalul - H j > ENN Ml D Acumulare LDA COUNT+U rA "- COUNT [r - ] H ADD C UNT+V M COUNT [g - ] + COUNT AND STA C UNT+V M -> COUNT [g] INC M J NP B MU j > | Timp de rulare - (YUM + N + ) și Pentru a nu folosi N biți suplimentari pentru "marker" [vezi secțiunea și Cy-bemetics ( ), ] și încă păstrează timpul de execuție proporțional cu N, se poate folosi următorul algoritm bazat pe structura de permutare ciclică RI [Buclă pe r' ] Efectuați pasul P pentru i, atribuiți k i > | Timpul de execuție este ( Ar - A - B + l)u, unde A este numărul de cicluri din permutarea p( ) p(N) și B este numărul de puncte fixe ale permutării (cicluri unitare) ) obține A \u d (mini, aveHk, maxN, dev yHdg - H ^!) și B \u d (minO, avei, maxlV, devl) pentru N > conform -( ) și -( ) Calea evidentă este să parcurgeți întreaga listă, înlocuind legăturile elementului k-lea cu numărul k și apoi rearanjați elementele la a doua trecere O metodă mai directă și mai rapidă, descrisă mai jos, pentru cazul în care înregistrările nu sunt prea mari, se datorează lui M D MacLaren (M D MacLaren) (Pentru comoditate, se presupune că A:] Dacă P k în secvența P, LINK (P), LINK (LINK (P)), , A, este u, ar, • • ■, aw+i-fc, unde Rr j pentru k Este destul de interesant să analizăm algoritmul lui M D McLaren Una dintre proprietățile sale remarcabile este că algoritmul poate fi rulat în ordine inversă și poate restabili setul original de legături din valorile finale LINK(l) LINK(Ar) Fiecare dintre cele M posibile configurații de ieșire pentru j r trebuie să se deplaseze la stânga; când r = , nu poate exista o astfel de intrare, deoarece nu există nimic de mutat la dreapta Algoritmul, desigur, este foarte elegant, dar, din păcate, este instabil în prezența tastelor egale Este strâns legat de construcția lui Foata din teorema B SECȚIUNEA Da Elementele egale nu sunt niciodată schimbate Da, dar dacă sunt elemente egale, timpul de rulare va crește și procesul de sortare se va efectua în sens invers față de sortarea stabilă Următorul program de instrucțiuni se presupune a fi cel mai scurt program de sortare pentru mașina MIX, deși nu poate fi recomandat din cauza vitezei sale lente de execuție Numerele sunt considerate a fi în celulele , ,N (adică INPUT EQU ); în caz contrar, este necesară o altă comandă H LDA V SMRA V JLE F B MUTAREA A STA , A START ENT N A + H DECI V + LR B B + Cometariu Pentru a estima timpul de rulare, rețineți că A este egal cu numărul de inversiuni, iar valoarea lui B este o funcție destul de simplă a tabelului de inversiuni și (presupunând că elementele de intrare sunt distincte și ordonate aleatoriu) are o funcție generatoare V- ( + )( +z + + ) X ( + z + + + + + ) ( + z"- + X- + ■ · ■ + zn^-^ )/N\ Valoarea medie a lui B este N - + - ) ( N - ) / \u d (N - ) ( N + N + ) / ; prin urmare, timpul mediu de execuție este de aproximativ |#m Considerați tabelul inversiilor Ві Вх ale permutației inițiale date în sensul ex - Valoarea lui A este cu o mai mică decât numărul de elemente ale lui Bj, care este egal cu j - , iar B este egal cu suma elementelor lui Bj Prin urmare, ambele mărimi - B - A și B - ating un maxim atunci când permutarea inițială este egală cu N ; ambele valori ating un minim atunci când permutarea inițială este N Prin urmare, timpul minim posibil de execuție este atins la = și B = și este egal cu ( N - ) și; timpul maxim de executie va fi atins la A = N - si B = (^) si este egal cu ( N - N - )m Funcția generatoare dorită este egală cu produsul lui A'^ și funcția generatoare pentru cantitatea B - A Având în vedere, ca în exercițiul anterior, tabelul de inversiune și amintindu-ne că elementele individuale ale tabelului de inversiune nu depind unele de altele, găsim funcția generatoare dorită j) Dispersia este , N + , N - , N + HN - H^ ) Organizați zona de ieșire ca o listă circulară cu poziția N adiacentă poziției Următorul element de inserat este preluat de la capătul din stânga sau din dreapta seriei curente de elemente nesortate, în funcție de faptul dacă elementul inserat anterior a fost pe respectiv la dreapta sau la stânga centrului zonei de articole sortate La sfârșit, de obicei este necesar să "defilați" această zonă, deplasând fiecare intrare cu k poziții în jurul cercului, unde k este o valoare fixă Acest lucru poate fi realizat efectiv într-un mod similar cu cel discutat în Ex - Valoarea medie pentru [aj - j| egală ^(l -Jl+ | -j|+ ••• + !"-j|) = //J/n - j + \\ n V / + V JJ ' însumând nu j, obținem ^-(("ț ) + ("t )) = |(n - ) Nu; luați în considerare, de exemplu, secvența de taste Pentru masă A ~ - - - - , B = - - - - ; pentru tab A ~ - - - = , B = - - - = ; în consecință, timpul de execuție al programului D în aceste două cazuri este de m și, respectiv, u Deși numărul de rescrieri a fost redus de la la , acest program nu poate concura cu programul S din punct de vedere al timpului de rulare, deoarece cu N = se alocă mult timp la operațiuni auxiliare necesare organizării a patru treceri Când sortați elemente, este mai bine să efectuați doar două scanări: versiunea cu două treceri a programului D începe să depășească programul S la aproximativ N = ; și totuși, pe seturi scurte de date de intrare, acestea sunt aproape echivalente (și pentru valori mici ale lui N, poate că lungimea programului joacă un rol semnificativ) Introduceți "INC INPUT; ST F( : )" între comenzile de pe liniile și și înlocuiți liniile - cu următoarele rânduri: ZN CMPA INTRARE+NH l NT-S JGE F NT-S H ENT NH l NT - S - C INTRARE LDX H, V H STX INTRARE+H in DEC , V J NP F in INTRARE CMPA, V-A JL B B-A H STA INTRARE+H NT-S-C Prin creșterea programului cu patru instrucțiuni, este posibil să se salveze (C - T) cicluri de mașină, unde C este numărul de cazuri când Kj > Kj-h- În tabel și , economiile de timp sunt de aproximativ și, respectiv, de cicluri; empiric, valoarea lui C/(NT - S) poate fi aleasă să fie de aproximativ , dacă hs+i/hs r și de aproximativ , dacă /ia+i//i i: , deci această îmbunătățire merită efortul (Pe de altă parte, o modificare similară a programului S este nedorită, deoarece economiile în acest caz sunt proporționale doar cu log N, cu excepția cazului în care se știe în prealabil că datele de intrare sunt suficient de bune Înlocuirea a simboluri duce întotdeauna la o modificare a numărului de inversări cu ± , în funcție de locul în care se face înlocuirea - deasupra sau sub diagonală Atribuiți greutatea |r segmentului de la (i, j - ) la (i, j) (a) Schimbați i și j în sumă cu A?n și adăugați cele două sume (b) Luând jumătate din acest rezultat, vedem că ^ p p - i - j p- j p - i - k p - i - k în consecință, A-in Z - z> kzka k/(l - z) = z/(l - z) , unde a = ( - y/\ - z)/ r Această dovadă a fost raportată autorului de Leonard Carlitz O altă dovadă se poate baza pe relația dintre greutățile pentru seria orizontală și verticală (vezi exercițiul ) O altă versiune a dovezii poate fi formulată folosind identitatea, care este luată în considerare în răspunsul la exercițiu - pentru /(/r) = k\, cu toate acestea, nu este clar cum, folosind combinatorie, se poate deriva pur și simplu formula An = | n/ j n Pentru n > gn(z) = zngn-f, hn(z) - gn(z) + z~n gn(z)-, nn n(z) = ^gk(z)gn-k(z); hn(z) = 'Ș ~hk(z)h"-k(z) k=i *=i Setând G(w,z) = o z" " /GK=i ( "Jak )\ coeficientul lui qmzn în F(z, q) este egal cu numărul de partiții m = pi + ■ -hpn astfel încât pj > pj + i + pentru (vezi Exercițiul - ) Este clar că pentru h - maximul este atins pe calea care trece prin colțul din dreapta sus al diagramei reticulate și este egal cu /[n/ j+l\ \ /' Pentru o valoare arbitrară a lui h, numărul corespunzător este egal cu (J unde q și r sunt definite de teorema H; o schimbare în care at+jh = + q(h - r) + (r - r) [r , maximizează numărul de inversiuni în fiecare dintre perechile (*) de subsecvențe ordonate Numărul maxim de deplasări se va obține dacă f este înlocuit cu / în formula ( ) Singura permutare în ordine a mulțimii { , , , n} cu inversiuni ("+') este n+ n+ n n Aplicând recursiv această idee, vom obțineți permutația în care se adaugă câte unul la fiecare element al șirului ( f - )l Ii i, unde R denotă operația de scriere a unui număr întreg sub forma unui număr binar de t-biți, urmată de scrierea acestuia cifre binare în ordine inversă (de la dreapta la stânga)! Scoatem factorul comun și punem ht = N/n; este necesară minimizarea suma h ^ / hs-i, cu condiția ca ho \u d - Ca urmare a diferențierii, se obține relația h \u d / i i / este + i, care are o soluție ( * - ) lg salut \u d f + - (t+l)-|-lg/it Valoarea minimă a scorului inițial este ( - )m( ~V>N + / Fie similar hk - h - k - n = xh + y'k-, atunci (x + x')h + (y + y')k - hk - h - k Prin urmare x + x' = k - (modulo k) și trebuie să fie x + x' = k - Prin urmare y + y' = - și y > dacă și numai dacă y' h permutarea /i-recurență este ordonată ( k - ) Dacă h ^N ^ W Pratt a generalizat această construcție pentru o familie extinsă de similare secvențe incluzând ( ) în teza sa de doctorat (Universitatea Stanford, ) Unele euristice pentru a găsi acele permutări care necesită și mai multe rescrieri sunt găsite de H Erkio, BIT ( ), - Vezi, de asemenea, Weiss, Sedgewick, J Algorithms ( ), - pentru o perfecționare suplimentară a construcției Pratt Fn+i [acest rezultat a fost obţinut de H B Mann (N W Mann), Econometrica ( ), ], întrucât permutarea trebuie să înceapă fie cu , fie cu Există cel mult [inversiuni V / J; numărul total de inversiuni este N - Fn Fn - • (Vezi exercițiul - ) Rețineți că permutările Fn+i pot fi reprezentate convenabil în codul Morse (o secvență de puncte și liniuțe), unde o liniuță corespunde inversării (vezi exercițiul - ) Prin urmare, am găsit numărul total de liniuțe din toate secvențele de puncte și liniuțe de lungime N Calculele de mai sus arată că o permutare aleatorie și ordonate are aproximativ |(?C' + |c (ln N/ In In N) Altfel h+c^vZ(tm)' > V( n V) R E Cypher [SICOMP ( ), - ] a găsit o constrângere mai strictă Q(? (logN) / log log N) pentru cazul în care deplasările satisfac hs+i > h pentru toți s și dacă sortarea secvența este formată așa cum este descris în exercițiu - Până în prezent, o expresie non-trivială pentru limita inferioară asimptotică pentru timpul mediu de rulare este necunoscută , după cum urmează din ( ) Dar este posibilă și o succesiune mai bună a deplasărilor (vezi exercițiul ) În urma experimentelor, S Tribolet a obţinut în secvenţele (Bave = ) şi (Bave " ) [În primul dintre acestea, timpul de sortare este " m comparativ cu" m când aceleași date au fost sortate cu secvența de compensare ( ) ] În general, Tribole sugerează că hs ar trebui să fie ales pentru a fi numărul prim cel mai apropiat de Experimente realizat în de Shelby Segel (Shelby Siegel) arată că cel mai bun număr de decalaje dintr-o secvență pentru N , y > } este egal cu |(log N)(log V) + O(logN) În timpul sortării /i, matricea este deja ordonată h- și /i (vezi Teorema K); prin urmare, puteți utiliza rezultatul ex START ENT T H LD H T ENN -INPUT-N T ST F( : ) T ST F( : ) T Despre ST F( : ) T ENT , T JMP F T H LDA INTRARE+Nl NT-S-B+A H SIRA INTRARE+NH l NT-S-B+A JGE F NT-SB+A H LDX INTRARE+NH, V INTRARE STX+N, V H STA INTRARE+NH l in INC , V H INC , NT-B +A J NP B NT - B + A DEC S Н ENT -N, T + S J P B T+S DEC T J P B t Aici A este numărul de maxime pentru dreptaci, așa cum A în programul D este numărul de minime pentru stângaci; Ambele mărimi se comportă statistic în același mod Ca urmare a simplificării buclei interioare, timpul de execuție a fost redus la NT + A - S + + T cicluri de mașină și, în mod ciudat, nu depinde de B! Cu N = , decalajele vor fi , , , , și avem Ale = , , Bae = , ; timpul total de funcționare este în medie de , t (comparați cu Tabelul ) Ambele mărimi, A și B, ating un maxim la permutarea La N = , există o succesiune de de decalaje: , , , , , , , , , , ; teste empirice precum cele prezentate în tabel oferă A și , B x și un timp total de rulare de aproximativ de cicluri (aproximativ de două ori mai lung decât programul D cu secvența offset din Exercițiul ) În loc să stocați valorile offset într-un tabel auxiliar, este convenabil să le generați pe mașina binară, după cum urmează RI Atribuiți m , reveniți la P | Deși offset-urile de sortare nu sunt generate în ordine descrescătoare, secvența de valori generată asigură că algoritmul funcționează corect Există două moduri diferite de a îmbunătăți un program În primul rând, presupunând că cheia artificială K este egală cu oo, putem omite testul condiției p > (Această idee a fost folosită, de exemplu, în algoritmul A ) În al doilea rând, putem folosi trucul standard de optimizare : duplicați bucla interioară prin modificarea valorilor lui p și q atribuite registrelor pe alocuri; ca urmare, alocarea lui q -p poate fi evitată (Această idee a fost folosită în exercițiile - ) Astfel, se presupune că câmpul ( : ) de la adresa INPUT conține cea mai mare valoare posibilă și este necesară înlocuirea liniilor din programul L, începând cu , cu următoarele H LD INTRARE, (LINK) B INTRARE SIRA, (CHEIE) B' JG F B' H ST INTRARE, (LINK) N' ȘI INTRARE ST , (LINK) N' JMP F N' H LD INTRARE, (LINK) B" și INTRARE SIRA, (CHEIE) B" JG B B" H ST INTRARE, (LINK) N" INTRARE ST , (LINK) N" H DECI N ENT N LDA INTRARE, N LR B N p Lq (Aici p = r/ , q = rI ) Treceți la pasul L cu q p dacă K > Kp Lq Kp Lq j > I Aici B'+B" = B+N-l, N'+N" = N- , deci timpul total de sortare este B + Y + N' - cicluri de mașină Deoarece N' este egal cu numărul de elemente la dreapta cărora există un număr impar de elemente mai mici, valoarea lui N' are următoarele caracteristici statistice: (min , av + max N ~ !)• Trucul oo oferă o accelerare similară cu programul S , presupunând că INPUT+N+ conține deja cel mai mare număr cu un singur cuvânt posibil START ENT Nl H LDA INTRARE, N- INTRARE ENT , N - JMP F N - H MOVE ( ) V H CMPA , B + N - JG B B+N-l H STA , N- DEC N- J P B N - Dublarea buclei interioare va economisi aproximativ B/ din ciclurile mașinii Există (*) secvențe de N opțiuni în care lista dată este aleasă de n ori; probabilitatea de apariție a fiecărei astfel de secvențe este egală cu ( /M)P( - l/M)N~n, deoarece fiecare listă este aleasă cu probabilitatea /M ENT ENT , N ENT -M INTRARE LD , l(LINK) N H LD CAP+M M J P *- N J Z F M H INC M ST INTRARE, (LINK) M - E J NP B M Cometariu Dacă programul M a fost modificat în așa fel încât să urmărească până la sfârșitul curent al fiecărei liste, apoi plasând comanda "ST END " între rândurile și , puteți economisi timp prin concatenarea listelor în același mod ca în algoritmul H Programul L: A = , B = , N = , timp = cicluri Programul M: A \u d + + + \u d , B \u d + + + \u d , N \u d , timp \u d c (La valoarea dată pentru timpul de execuție a programului M, trebuie să adăugați timpul necesar ts pentru a executa programul suplimentar din exercițiul Acest lucru va permite o comparație corectă Operațiile de înmulțire încetinesc întotdeauna execuția programului! Notă ca timpul de executie al programului L, imbunatatit in exercitiul este de doar u Identitatea formulată este echivalentă cu identitatea nm(z) = M N nr(z) nM(z), ceea ce se dovedește, ca în Ex Ar părea interesant să oferim un tabel cu unele dintre aceste funcții generatoare, pentru a releva tendința care apare pe măsură ce M crește: ( + z+ z + z + z + z + z )/ , P (z)= ( + z + z + z + z + z )/ , P (z)= ( + z + z + z + z + zs + zs + zs + ) z + z + z + z )/ Dacă Gm(w, z) este funcția generatoare dublă formulată, atunci diferențierea față de z dă Gm(w,z) = mH 'n> 'n> Prin urmare, E rmlg(i) LG> Nu \u d Eu (m ) w f - w ^ \u d - w eMw \ / În mod similar, din formula q'n( ) = |Q) + ( ) rezultă că E = M(M - )e^- >" (|w + M e" V> ' ' ' ' Echivalarea coeficienților la wN dă xM~ , și se dovedește că varianța este (|(^) + ^p^-(^)) M~ C)p;( -^)A-pC) = G) ZjPl, setarea p, = F(j/M) - F((j - )/M) și Γ'(x) = /( x ), această sumă poate fi redusă la produsul (^)/M și fQ /(r) dx, dacă doar funcția F este aleasă suficient de bine [Cu toate acestea, f* f(x) dx poate fi prea mare Subtilitățile alegerii potrivite pentru toate densitățile integrabile mărginite sunt date în teorema T (Aici ne referim la integrabilitatea Riemann - Notă Ed ) ] Pentru a minimiza valoarea AC / M + BM, trebuie să puneți M = AC / B, astfel încât M să fie unul dintre numerele întregi cele mai apropiate (de sus sau de jos) de această valoare (În cazul programului M, se poate alege ca M să fie proporțional cu AC) Serii asimptotice pt Ș " ( - N k>Q poate fi obținut prin limitarea valorilor lui k la O(Nl+'~), reprezentând ( - a/N)k ca produs al lui e~ak/N și ( - ka / N + • • ■) și folosind formula de însumare a lui Euler; expresia începe acum cu termenii e"Ei(a)( + a / V) - ( + a)/ N + O(N~ ) În consecință, valoarea asimptotică a lui ( ) este [Coeficientul la N este " , , , , respectiv , pentru a = , , ] Rețineți că, așa cum se arată în exercițiu - , n a + + Ei (a) \u d fot -e t) " dt Avem a*, = O(p*), deoarece din teorema numerelor prime rezultă că numărul primelor dintre pk și pk+r este egal cu pk+r/(k + ) - pk/k + O(pk/k ) Această valoare este pozitivă pentru toate k suficient de mari Astfel, suma primelor (І[) elemente din relația ( ) este egală cu Ș ] = P tPk - (Rg- )(r- ) ■ (b) Dacă (k? ) , șirul de baze ai, ar, devine egală cu șirul de numere prime, iar în teorema I limita este redusă la O(g^ (loglogN)- ) (a) [A C Yao, J Algorithms ( ), - ] Se poate demonstra că fiecare dintre perechile (j) de liste va necesita ^p /i / n/ + O(N/gh) inversiuni per subbary ( Ka, Ka+q, Ka+?q, • ■), Ky+ghh] + [Ky+ghj > Kx+jh*,]) + r(x, y) , j ^m&x(x,y)+ghj ] Kk+qh+gh] Kk+qh-gh] • Mijloace, [ffx+ghj > Ky+ghk] + [Ki/+ghj > ^x+gh/c] - l-^x+ph+gh(j+l) > ■Kp+gfi+gh(k - l )] + [-^y+gh+ghfj+l) > ■Kx+phj-ghțk - l) ]- Aceasta implică faptul că g(x,y) g(x + ph, y + qh) - N/gh Dar suma g(x, y) peste toate perechile g (x, y) astfel încât x mod h = b și y mod h = c pentru orice b/c dat este numărul total de inversiuni într-o permutare aleatorie în ordine Elemente N/h Astfel, după cum rezultă din ex , valoarea medie a lui d(x, y) este egală cu d~ y/tg/ ( N/h) / + O(N/gh) (b) Vezi C S Janson, D E Knuth, Random Structures and AZgs ( ), - Dacă h și g sunt mari, avem ip(h,g) = y/nh/ g + O(p~I/ /iI,/ ) + O(g/i ,/ ) Dacă К Ki Aici I = dacă j = h + și I , fără a încerca să mutați Kj la stânga dincolo de pozițiile j - h [vezi Fig W Dobosiewicz, Inf Proc Scrisorile ( ), - ], dar această abordare pare să necesite mai multe compensații (a) Da Acest lucru este evident în cazul în care r este cu un pas "mai mare" decât r; în ex - se arată că în astfel de condiții există o cale de la r la orice permutare peste el Această cale este formată din operațiile de transpunere a elementelor învecinate (b) Da În mod similar, dacă tg este situat "deasupra" tg', atunci tg este situat "sub" tg'a (c) Nu; nu va fi "sus" sau "dedesubt" , ci este numărul de elemente a*, astfel încât i a/c > a (De aceea, orice fel de schimb are ca rezultat o permutare ordonată ) (a) (b) [A Cayley, Philos Mag ( ), - ] Luați în considerare reprezentarea ciclică a permutației r Dacă schimbați elemente ale aceluiași ciclu, atunci numărul de cicluri va crește cu ; dacă schimbați elemente ale diferitelor cicluri, atunci numărul de cicluri va scădea cu (Acesta este în esență conținutul exercițiului - ) O permutare complet sortată este caracterizată prin faptul că are n cicluri Prin urmare, xcb(r) este egal cu n minus numărul de cicluri de permutare r [Algoritmul S realizează exact operațiuni de schimb de înregistrări xcb(mr); vezi ex - ) Da; dispunerea relativă a elementelor egale nu se schimbă niciodată Aceasta este probabilitatea ca b] > max(bz, ,bn) să fie în tabelul de inversare Probabilitatea este \/m/ n + O(n ) = valoare neglijabil de mică Putem presupune că r > Fie = (b, - r + )[b, > r] tabelul inversiilor după r - trece Dacă b'i > , atunci i este precedat de b[ elemente mai mari, dintre care cel mai mare plutește cel puțin în poziția b'j + i (deoarece există i elemente și după trecerea a r-a BOUND = b'- + j - Soluție Elementul aflat cel mai în dreapta poziției sale finale este mutat cu un pas spre stânga la fiecare scanare, cu excepția ultimei Soluția (nivel superior) De la ex - , răspunsul (f), a( - i = bt - ct pentru n - j + există n - r: + căi (a) Dacă i = k - , atunci de la (k - , a, - k) la (k, u - k) Dacă i = k, atunci de la (ai - k, k - ) la (a, - k, k) (b) Pasul ag*,-* deasupra diagonalei k k a, k- > a?k ■+=+ a k a k - k pasul a k deasupra diagonalei Dacă aceste elemente sunt interschimbate, atunci treptele orizontale și verticale se vor schimba, (c) Pasul a, k+d va fi cu cel puțin m unități sub diagonala k + m - > aik + d - (k + m') + m => a, k+d k + m ■+=+■ ark - k > k + m ■+=+■ pas ar*, (Dacă a, k + d k + m și a, k > k + m, atunci unul dintre semnele ">" trebuie să fie un semn ">", dar este imposibil să plasați toate elementele și D START ENT TT H ENT TT T ST ' Q(l: ) T ENT T ENT , T H ENT A INC -N A H ENT - , D+E H LDA INTRARE+ C CMPA INTRARE+N+ , C JLE ♦ + C INTRARE LDX+N+ , V INTRARE STX+ V STA INTRARE+N+ V J Z F C DEC C - D INC C - D INC CD ml initializare la p Ri+d+i Salt dacă s = p - s j și / (j - i - ) - dacă r unde d(n) este o funcţie periodică lg n cu amplitudine limitată Prin urmare, în medie, aproximativ / din comparații vor avea ca rezultat un schimb ca n -> oo [SICOMP ( ), - ; vezi şi Flajolet, Odlyzko, SIAM J Discrete Math ( ), - ] Valoarea lui Kn+i este verificată la sortarea sub-taxului pentru care r = N și Ki este cea mai mare cheie Ko este verificat la pasul Q , când minimul de la stânga la dreapta coboară în poziția Ri La pașii Q și Q , înainte de a trece la Q , se face singura înlocuire a lui i pentru procesul de împărțire a subbarajului Ri Rr se termină la j = [(Z + r)/ ] la pasul Q , adică , subbarra se împarte cât mai exact în jumătate (Din punct de vedere cantitativ, acest lucru se exprimă prin faptul că formulele ( ) sunt înlocuite cu formulele A = , B = [(AG - )/ J, C - N + ( /Vmod ); aceasta este, în esență , cel mai bun caz pentru algoritm (vezi și exercițiul de mai jos), cu excepția faptului că B și |C Dacă în pașii Q și Q înlocuim semnele " "+ C - (r)(Dy- (r), = N Dn(z) = - ^ jDs i(z)Pn s(z), = N En[z)=-^ es i(z)En- (z), sn(z) = ^xz[M+ M Aici bstN este probabilitatea ca s și t să ia valorile date într-o secvență de lungime N, și anume Ultima expresie este egală cu produsul a trei factori: numărul de permutări ale mulțimii { , ,s - }, numărul de permutări ale mulțimii { s + , ,A' } și numărul de modalități de a înlocui reciproc t elemente dintr-un subbary și t elemente dintr-un alt subbary Primul factor este produsul dintre ( / V!) și ( - )!, al doilea factor este egal cu (N - ")!, iar al treilea este egal cu ( ~') • Pentru M obţinem An = + ( / V) ^, M + obținem Sn = ( /W) Ș M are soluția (N+ )( Hw+i- Hm+ + - /(M) + )+ /(N+ )) (Astfel, am putea economisi aproximativ ^N/M comparații Dar fiecare comparație va dura mai mult timp dacă este urmată de analiza lui i și j Ca urmare, vom pierde, cu excepția cazului în care pierderea în compararea a două chei depășește ~ M In De N ori pierderea din compararea a două registre Multe concluzii teoretice privind sortarea nu au putut fi implementate în practică, deoarece "îmbunătățirile" propuse au transformat sortarea rapidă în mult mai puțin rapidă!) (Aplicați în mod repetat formulele ( ), înlocuind s = I ) A = N - M, B = , C = (JV + ) (M + ), D = E = S = Q Într-adevăr, nu există nimic mai rău decât sortarea NM NN- N-M+ O parte din această secvență N M- M- M M+ • • ■ N- este aproape la fel de rău Dar acest lucru este doar puțin mai rău decât în ex , deoarece cu o astfel de mulțime obținem D = M - , E = (^) I ; necesită m Se poate arăta că cel mai bun caz pentru /V = (M + ) * - este cazul în care sub-taile sunt împărțite în jumătate la fiecare partiție până când ajung la dimensiunea M + Apoi trebuie să utilizați împărțirea cu o treime pentru a evita depășirea stivei Obținem A \u d - * - , C \u d (k + |) ( Y + ), S - k - , B \u d D \u d E \u d (Găsirea celui mai bun caz pentru orice M și N este o sarcină foarte dificilă interesantă, dar și foarte dificilă Relația de recurență Cn = n + + (fc - l)(n - k)Ck-i (h) k= poate fi convertit în (h) C "- (P ) C'- + (P ) c "- \u d (n- ) (n- ) + (n- ) C "- În cazul general, luați în considerare relația de recurență care apare atunci când partiția este controlată de o mediană de t + elemente Setând C(z) = Ș n Cnzn, acesta poate fi convertit în ( - z)f+ C( f+ \z)/( t + )! = /( - z)t+ + C(f)(z)/(t+l)! Fie /(z) = C(f)(l - z); atunci pf(i )/(z) = ( t + )!/zf+ , unde i este operatorul x(d/dx) și Pt(z) = (t - - ( t + ) - Generalități soluție ecuații: (i - a)g(x) - x are forma g(x) = xe/(J - a) + Cxa pentru a / și g(x) = /(Ini + C) pentru a = / Avem pt(-t - ) = , deci soluția generală a acestei ecuații diferențiale este: C"\z) = ( t + )! ln(l - z)/p't(-t - )( - z)t+ + Ș>( - z)a>, i=o unde ao, ■ ■ ■ ,at sunt rădăcinile ecuației Pt(x) = , iar constantele c, depind de valorile inițiale ale lui Ct, ■ ■ ■, C Identitate convenabilă b-(gb) - -"-)(" D A "'r ' ' n> conduce la o soluție în formă închisă remarcabil de simplă c - Hp+i ~ Hi+i ** і+ ~ Н-і+ >= din care se deduce cu ușurință formula asimptotică (Termenul principal n n n/ (Rg "+ - R(+i)) a fost evidențiat de M van Emden [vezi M H van Emden, CACM ( ), - ], folosind teoretica informației Într-adevăr, să presupunem că este necesar să se analizeze un proces de partiționare arbitrar, astfel încât subbarraul din stânga să conțină xN elemente cu probabilitate asimptotică f* f(x) dx ca IV -> cw, pentru X, atunci la împărțire, toate tastele > K sunt în dreapta și toate tastele K cad la dreapta, iar toate cheile K Această abordare, pe care autorii o numesc multikey quicksort, dă rezultate semnificativ mai bune decât soluția și este un concurent demn al celor mai rapide metode de sortare pentru șirurile de caractere Efectuați împărțirea obișnuită și lăsați R\ să cadă în poziția Rs Dacă s = t, atunci vă puteți opri aici Dacă v m, găsiți cel mai mic element al m-lea din subbarra din stânga [CASM ( ), - ; ( ), - ] RG Dromey, Software Practice & Experience ( ), - , arată că sunt necesare mai puține comparații și rescrieri dacă fiecare fază de separare este încheiată de îndată ce i sau j atinge poziția m Relația de recurență aici este următoarea: Cu = și SPt = n + + (Apt + VPt)/n pentru n > , unde Apt - / JC[n - s)(m - s) l n = (n+l)C(n+ )(m+ ) -nSPt și obțineți răspunsul ((n+ )Nn-(n+ -m)Nn + m -(m+ )Rm+n+|) - | ; ((-l)m ; Bo = Br = (vezi exercițiul ) Aplicând pentru rezolvarea acestor ecuații metoda descrisă în exercițiu , obținem formulele Ad- = Vn - Un + , Bn = ^(Un + N - ), Cn = Un + N, Kn = N/ , Ln = Rn = |(Vjv - Un - N) + , Xn = |(Aw - Ln) Este clar că Gn = După fiecare iterație de sortare rapidă, cel puțin un element ajunge în poziția sa finală, dar acest lucru nu se întâmplă cu sortarea prin schimb (vezi Tabelul ) Dacă trecem la metoda simplă de inserare de fiecare dată când r - I k = k eu a b c d până când secțiunea din mijloc este goală Apoi trebuie să transferați cele două părți extreme la mijloc D [Setare inițială ] Setați a K ] Dacă b K, micșorați c cu și repetați acest pas Dacă b Rd, micșorați c și d cu și repetați acest pas D [Înlocuire] Dacă b Rc-k la ya-\e~vl)dy + ya e~y dy = r(a) - /a = (r(a + ) - r( ))/a -> r'( ) = - Pentru k > avem k+ j + l)j! ( m)J) Pentru k - - , contribuțiile de la /^ ^(w) în ( ) se anulează cu termeni similari în descompunerea lui Hm-i și avem r i(m) = Hm-i + ( /\/ m ) Ș f> fi (t) ~ |(ln( m) + ) - Zj>i(- )J/( j)J! ( m)J Prin urmare, contribuția la Wm~i a termenului Vf/t ( ) se obține din suma m ) + O(m- / ) = jmlnm + |(ln + - - y/ mm + + O(m- / ) Termenul - contribuie * Există o traducere în limba rusă: Dijkstra E V The disciplina of programming - M : Mir, - Notă, trad J (> exp(-t / m)(l - t / m )(l - t/ m)(l + t/m) + (c)(m- / ) - -y/ m + Membru | i [Rețineți că |T(s + it)| = (n este un număr întreg, deci putem găsi valoarea superioară legat pentru funcția (n/ -')' este de fapt egală cu integrala din ex pentru toate s > Folosirea identităţii intermediare ■" g - / -noo -e I \u d - / r (z) x ~ z dz, tgg Ji/ -ioo acţionăm la fel ca în text, dar acum - e~x joacă rolul e~x - + x; Vn+i/(n + ) = (- / mr) ^(Z)n~z dz/( ~z - ) + O(n ), iar integrala este lgn + / n - I - Atunci suma va fi egală cu -i /chx-Moo -t pa+ioo E / G (g) ((" "g? dz \u d - / G ("") Nu C ( g - k) dz £> **** Ja-too ZTTl Ja-ioo cu condiția ca a > (k + )/ Deci, este necesar să cunoaștem proprietățile funcției zeta Dacă R(w) > - q, atunci C(w) = O(|w|,+ ) pentru |w| -> su; în consecință, conturul de integrare poate fi deplasat spre stânga cât de mult se dorește, dacă se iau în considerare doar reziduurile Factorul Г(г) are poli în punctele , - , - , , în timp ce ț( z - k) are un pol doar în punctul z = (k + )/ Reziduul din punctul z = -j este egal cu Reziduul din punctul z - (k + l)/ este egal cu polul și ((z) = l/(z - ) + + O(\z - ), astfel încât reziduul la in acest caz este + I ln N - I Astfel obținem seria asimptotică menționată în răspunsul la exercițiul Să presupunem că x = t/n; Apoi ^n + t)/( " r) = ^P^- ^ / ' + z / • + ■ ■ •) + (x / + m / + • ■ ■) - ( / p)(t - t + ••■) + •••) Suma dorită poate fi acum reprezentată ca o serie J (> tkd(t)e /n pentru diverse k Deoarece £(z) = Soi, deci, acţionând în acelaşi mod ca în exerciţiu poate fi calculat reziduuri ale funcției r(z)nzț( z - k) pentru k > Reziduul din punctul z = -j este egal cu n~ (- )J (B j+k+i/( j + k + )) /;!, iar restul din punctul z = (k + )/ este unde i/>(z) = r'{r'}/r(r) = Hz-i - y Astfel, de exemplu, dacă k = , atunci Pentru a obține Sn/ț "), adăugați (^lnn+ + - ln )\/tg/n + O(n ) la această valoare (Vezi ynp - și - ) Fie q = - p Rezumând analiza efectuată în Ex , (c), obținem că dacă і I П \ tkn - k - k n - k \ Xn = an + Aj] (p q + V' ACEA Xn=an+£ (nk)(- )* ăk(Pk+^)/(i - Pk - r) Prin urmare, ca și până acum, putem găsi mărimile Bn vl Cn- Factorul | in Bn trebuie inlocuit cu pq Analiza expresiei asimptotice pentru Un se realizează în esență în același mod ca și în text, cu Tn \u d E - + pr'G) r>l,s>OVS / / +ioo = / r(z)n~z(p~z + q~z) dz/(l - p~z - q~z) ^g J- / -ioo = (p/Ly)( pn + - + h{ }/ hp -hp + (n)) + ( ), unde hp = -(plnp + glng), h'p ' = p(lnp) + g(lng) , a cw (Expresia asimptotică pentru Un poate fi acum derivată într-un mod nou prin extinderea Γ(n + )/Γ(n + ibm) Metoda discutată în acest exercițiu se aplică tuturor sumelor de formă EQJhFW) = ^ / B(n + , -z-)f(z) dz, dacă funcția f este aleasă în mod rezonabil!) Înlocuiți liniile - din programul Q după cum urmează H ENTA , STA INTRARE, c n) pentru n > m De exemplu, fie xn = n = pentru tot n > m, deci n-Un+i = m-um+i- Deoarece j/m+i = /m și ym+ = /(m + l ), găsim în sfârșit xn - ^(n+ )/m(m+ )(m+ ) + y-(m - )-/n-pentru n > m În cazul general, fie /n = ( /(n - )(n - )) £= (fc - )(n - k)xk-i; dacă bn este identic egal cu , atunci soluția pentru n > m este , , n (m + l)/m+ - (m - )/m+i ((m + l)/m+ - (m + )/m+i)m- Xn ~ + } (m + l)(m + ) Dacă bn = (") /n£- și xn = pentru n m Cu excepția cazurilor când p = - , obținem )-, iar când p = , xn/(n + ) = -^(Hn - Hm-i)/(n + )- + i/(m + )^+|i/( n+ I Certându-se, ca în ex - , concluzionăm că prima fază de separare va contribui acum cu la A, t la B și N - la C, unde t este definit ca înainte, dar după rearanjarea care a fost făcută în ex Sub noi ipoteze bstN = Prin urmare, relațiile de recurență derivate mai sus apar în această problemă după cum urmează Valori pentru M Soluții pentru > M Adg (A+ )(^/(M+ ))- + O(A- ) Bjv (AG- )/ (Cjv - Ajv)/ Cm L- ^+l)(f (Hn+i-Hm+ ) + %-^/(M+ ))+ +O(N- ) Dn N-Hn (AG-I- )( - ^HM+i/(A/+ )-|/(M+ ))+O(L~v) Em V(L- )/ ^ + )(DM-|| + |/(M+ ))+O(LG- ) În mod similar, \- \u d | ( V + ) ( M + ) / ( M + ) ( M + ) - + O (nr ) În medie, timpul total de execuție a programului în ex este egal cu | Aw + IIBn + Cn + Dn + SEn + Sn + V Alegerea lui M = este doar puțin mai bună decât M = și are ca rezultat un timp mediu de rulare de aproximativ lOjl/VlnN + , V [Acta Inf ( ), - ] După înlocuirea SRB cu DIV , Ad- se adaugă la timpul mediu de execuție și necesită setarea M = SECȚIUNEA Nu, dar metoda care utilizează su (descrisă chiar înainte de algoritmul S) este robustă Scanarea unei liste liniare stocate în locații consecutive de memorie este adesea ceva mai rapidă atunci când deplasați în jos indici, deoarece este de obicei mai ușor să verificați dacă un index este decât să verificați dacă este mai mare de V (Din același motiv, la căutarea la pasul S , indicele scade de la j la ; totuși, vezi exercițiul !) (a) Permutarea ai ajv-iW corespunde tablourilor originale N ag ■ ■ am-i ai, aiNas ■ ■ am-i a , ■■■, aiaz • ajv- -ZVa vi, ai am-iN (b) După cum se arată în secțiunea , la prima iterație a pasului S , de câte ori modificările maxime sunt Nm - [Prin urmare, Vg poate fi găsită din relațiile -( ) ] Dacă fișierul sursă este o permutare a mulțimii { , , ;Ar}, atunci numărul de cazuri în care i = j la pasul S este cu exact unul mai mic decât numărul de cicluri din această permutare (Într-adevăr, este ușor de arătat că la pașii S și S elementul j este pur și simplu eliminat din ciclul său Prin urmare, pasul S este inutil doar dacă elementul j a fost cel mai mic element din ciclul său ) Conform egalităților ( - ( )) s-ar putea economisi în medie Hn - din A - execuții ale pasului S Astfel, ar fi ineficient să se introducă o verificare suplimentară "i = j?" înainte de pasul S În loc să comparăm i cu j, putem prelungi ușor programul pentru pasul S duplicând unele dintre comenzi pentru a nu merge la pasul S dacă alegerea inițială a lui Kj nu s-a schimbat în timpul căutării maximului Acest lucru ar face ca programul S să ruleze puțin mai repede ( V - ) + ( V - ) + • • ■ = [Nr / J (a) Dacă la pasul S se dovedește că i / j, atunci după executarea sa numărul de inversiuni va scădea cu m - , unde m este cu o mai mare decât numărul de chei aflate în intervalul dintre Ki și Kj printre Ki + i Kj-i Este clar că m nu este mai mic decât contribuția la valoarea parametrului B la pasul anterior S Acum aplicați corolarul din Ex , legarea ciclurilor cu condiția i = j (b) Orice permutare poate fi obținută din N prin schimburi succesive de elemente învecinate care încalcă ordonarea inițială (Aplicați în ordine inversă acele schimburi în care permutarea este sortată în ordine descrescătoare ) Fiecare astfel de operație reduce I cu unu și modifică C cu ± Prin urmare, pentru nicio permutare, valoarea lui I - C nu depășește valoarea corespunzătoare pentru N [Din exercițiu rezultă că inegalitatea B Kk Altfel - Lk , k va începe de la i În caz contrar - i | N - +~~ + N - Hn- [Valorile medii ale parametrilor C și D sunt egale cu Hn + și, respectiv, Hn - j Prin urmare, timpul mediu de execuție a programului este ( V + V - IoHd- + )u ] Programul H rulează semnificativ mai bine " - , o dată pentru fiecare - su la nodul de ramură Dacă K > Kr + , atunci după pasul H se poate trece la pasul H la j = r la pasul H ) Pentru a asigura îndeplinirea condiției K > Kr+i pe tot parcursul algoritmului, putem începe cu Kn+i q, repetați acest pas până devine n N, opriți rularea algoritmului În caz contrar, dacă n K, atunci setați Kj h - K și terminați algoritmul Setați Kj Ch-Ki, j h- i și reveniți la pasul | [În T Porter, I Simon, IEEE Trans SE- ( ), - , se arată că dacă se dă o piramidă aleatorie de numere distribuite uniform și An + i este numărul mediu de ori în care se realizează pasul , atunci An = [Ign] + ( - n )An/ pentru n > , unde n = (lbi-ibi- ) implică n' - ( b; ) Dacă I = [lgnj, această valoare este întotdeauna > A i+i = ( ,+ - )/( ,+ - ) și întotdeauna B ; deci B er > • • • > e( > , se poate arăta că v(k) = |((ei + ) ei + (er + ) e + • ■ ■ -(et + t) ") + t - N [Proprietățile asimptotice ale acestei sume pot fi analizate folosind transformata Mellin; vezi Flajolet, Grabner, Kirschenhofer, Prodinger, Tichy, Theoretical Comp Sci ( ), - ] JW Wrench, Jr a concluzionat că, în general, seria Lambert X)n> axn/( -xn') poate fi reprezentată ca xN = £)m>i(am + " am+k)X) [Cazul când an = și an = n a fost observat pentru prima dată de J H Lambert în Anlage zur Architectonic (Riga, ), § ; Clausen și-a derivat formula pentru an = în Crelle ( ), , iar H F Scherk a prezentat o demonstrație în Crelle ( ), - Dacă an = n și x = |, obținem relația E ѵ- n / t + \ t \n-t E "- Edsh \ m - ) + ( m- I) / = , + Această constantă apare în formulele aproximative ( ), unde B'm ~ (/ - ) N și C'm ~ (^- a )DV ] Apropo, dacă punem q = x și z = xy în prima identitate din ex - , iar apoi calculăm cu y = , obținem o identitate interesantă: n> k>l Descendenții nodului fc-ro sunt nodurile fc - l, k și fc + l; părintele este [(fc + )/ J Timpul de execuție al unui program MIX similar cu programul H se apropie asimptotic de log N xz , Vlg V cicluri de mașină Folosind ideea de la ex , poate fi redus la |Nlog y la , V lg V, deși se va adăuga un termen mare Ѳ( V) datorită împărțirii în operații Pentru mai multe informații despre arborii t-nar, vezi S Okot, Lecture Notes in Comp sci ( ), - Să presupunem că n - ( - + r, unde t = [IgnJ și , >= având în vedere numărul de elemente de la nivelul j, care pretind că devin "habitatul" final pentru Kp+i după ce este "întins" până la locul lui Ki Astfel, dacă dpt = hnm/ m, obținem y -' - g, , (n + l)m - / , n(m - j) + n(m - t + l) " ^ n(tn - t) " )) max^nTn, i=o din care urmează prin inducţie Numărul total mediu de promoții în faza de selecție este &N = Tflh^rn , HP> unde /ітѵ = este numărul total de piramide posibile (teorema H) Este cunoscut că B'n m - hȚ- - k)h Nk > m - IinLn - k) k > m - m+'h~' Ln pentru toți m Alegerea m = lg(hN/LN) + ( ) dă acum B'n > lg(/iw/Ln) + ( ) Numărul de comparații necesare pentru a forma o piramidă nu depășește N, după cum rezultă din exercițiu , (b), deci Hn > Nl/ N Evident, Ln NlgN - NlglgN + O(N) [J Algoritmi ( ), - ] (Soluție propusă de J Edighoffer, ) Fie A un tablou care conține n elemente, unde ] - ] > A[ i - ] pentru A[ i] pentru ^NlgN + O(N) + jBmin(L-^/ j) și rezultatul dorit se obține prin inducție pe N [I Wegener, Theoretical Comp Sci ( ), - , Teorema P Schaffer, P Sedgewick și, în mod independent, Bollobâs, Fenner și Trieze, au construit permutări, care necesită cel puțin | NlgN + O(NloglogN) progresează, vezi J Algorithms ( ), - ; Fie P și Q să indice cozi de prioritate date; ca și în textul principal al secțiunii, următorul algoritm presupune că DIST(A) = , chiar dacă A nu este un nod M [Setare inițială ] Setați R h-L M [Merge listes ] Dacă Q = A, setați D h - DIST(P) și mergeți la M Dacă P = L, atunci setați P ch - Q, D ch - DIST (P) și mergeți la M În caz contrar, dacă KEY(P) > KEY(Q), setați T h - DREAPTA (P), DREAPTA (P) h - R, R h - R, R W - Ti repetați pasul M Dacă KEY(P) o^ - Em>l L m , unde Lm(z) = r "* + • • • generează arbori din stânga cu calea cea mai scurtă de lungime m de la rădăcină la A, Reiner Kemp (Rainer Kemp) a demonstrat că L(z) - r + |£(z) + | m > Lm(z) și că a ~ , și b x , [vezi Inf Proc Letters ( ), - ; Random Graphs ' ( ), - ] Luis Trabb Pardo a observat în că funcția generatoare G(z') = zL(z') satisface foarte elegant relația G(z) = z + G(zG{z')') Fie câmpul DIST al nodului exclus să fie do, iar câmpul DIST al subarborilor îmbinați să fie di Dacă do = di, atunci nu este nevoie să urcăm deloc Dacă do > di, atunci di = do - , iar dacă urcăm cu n niveluri, atunci noile câmpuri DIST ale strămoșilor lui P vor fi di + , di + , , di + n, respectiv , unde k = [lg( V/ )J SECȚIUNEA Începeți cu ii - • • • = n = , j = Acum repetați următoarele operații: găsiți min(xii , , Xkik) = Xrіg și setați Zj = xrіg, j h - j + , іr t - ir + - (În acest caz va fi convenabil să punem a\(m +i) = oo ) Dacă k nu este prea mare, atunci este de dorit să stocați cheile x, , x, k într-o structură arborescentă care permite selecții multiple, așa cum sa discutat în secțiunea ; atunci ar fi nevoie doar de [lg fc] comparații pentru a găsi fiecare minim nou, în afară de primul De fapt, aceasta este o aplicație tipică a principiului "cel puțin intrat, primul ieșit" într-o coadă de prioritate Este posibil să stocați cheile într-o piramidă și să nu folosiți deloc oo Discuții suplimentare sunt furnizate în secțiunea Fie C numărul de comparații; apoi C \u d m + n - S, unde S este numărul de elemente transmise la pasul M sau Mb Este ușor de observat că probabilitatea ca S > s să fie egală cu m + n - s T t + p - s p qs = I Igp + p / \ T pentru m + n Prin urmare, așteptarea lui S este p mn = qi + Kj, mergeți la pasul M ' M ' Set K'^ h - Kj, k h - k + , i h - i + , j h - j + Dacă i > M, treceți la pasul M '; în caz contrar, dacă j > N, treceți la pasul Mb'; în caz contrar, reveniți la pasul M ' | (Ceilalți pași ai algoritmului M sunt modificați în consecință Și din nou, nevoia de a analiza cazuri speciale dispare dacă chei artificiale Km+ = K'N+ = oo sunt adăugate la sfârșitul ambelor matrice la sfârșitul fișierului ) Succesiunea elementelor care apar în timp la un nod intern fix al arborelui de selecție se obține prin îmbinarea secvențelor de elemente care apar la nodurile care sunt descendenți ai nodului respectiv (Secțiunea se ocupă de alegerea celui mai mare element, dar analiza lui ar putea fi la fel de bine efectuată pentru relația de ordine inversă ) Astfel, operațiunile care se efectuează atunci când se alege dintr-un arbore sunt în esență aceleași ca atunci când merge, dar sunt executate într-o ordine diferită și folosind structuri de date diferite Alte caracteristici comune ale îmbinării și selectării dintr-un arbore sunt discutate în Ex Rețineți că îmbinarea căilor TV a matricelor singleton este un sort de selecție; comparați și îmbinarea în patru sensuri (A,B,C,D) cu îmbinarea în două sensuri {A, B), (C, D) și apoi {AB, CD) La pasul N întotdeauna Кі (Gândește-te de câte ori trebuie dublat p înainte de a deveni > N ) Dacă N nu este multiplu de p, atunci cu o astfel de vizionare va exista o serie mai scurtă și va fi întotdeauna undeva la mijloc Fie lungimea sa t, ■ ■ ■ > уі Dacă xp yi, atunci, în raport cu sub-tarul drept, finalizarea procesării va fi simulată artificial, dar Kj - xp nu va fi niciodată n Cu ceva efort, această idee poate fi dezvoltată astfel încât întreaga sortare să necesite N + 'lg'vJ celule Dar în comparație cu algoritmul S, un astfel de program pare destul de complicat [Cm Comp J ( ), ; vezi, de asemenea, L S Lozinsky, Cybernetics ( ), - ] Da Acest lucru poate fi demonstrat, de exemplu, luând în considerare relația cu metoda de selecție a arborilor menționată în Ex Dar algoritmii N și S sunt în mod evident instabili Setați Lo , timpul de execuție a programului este operațiunile de îmbinare în subbary efectuate, B' este numărul de astfel de îmbinări în care p-subbarray a fost procesat prima, C - C' + C" este numărul de comparații efectuate, C este numărul de comparații cu rezultatul Kp n> = , - poate fi calculată cu mare precizie, ca în ex - Acest caz particular a fost analizat de E Gleason (A Gleason) [nepublicat, ] şi X Nagler (H Nagler) [CACM ( ), - ] Pentru a obține valoarea maximă a parametrului C, este suficient în exercițiu pune D = B [O analiză detaliată a algoritmului L este făcută în lucrarea lui W Rappu, H Prodinger, Algorithmica ( ), - ] Duplicați instrucțiunile pentru implementarea pașilor L , L și L pentru cazurile în care Ls este cunoscut a fi egal cu p sau q [Algoritmul poate fi îmbunătățit în continuare prin eliminarea atribuirii s oo este bine aproximat prin metoda distribuției normale; analiză suplimentară a fost efectuată în lucrarea lui N -K Hwang, M Cramer, Random Structures and Algorithms ( ), - ; ( ), - SECȚIUNEA Nu, deoarece după prima scanare, sortarea radix nu va fi efectuată deloc dacă sortarea distributivă este instabilă (Dar modalitatea sugerată de sortare distributivă ar putea fi aplicată sortării SP pe biți, așa cum este indicat în ultimul paragraf al acestei secțiuni ) Acesta este un algoritm de sortare "anti-rezistent", care este exact opusul sortării stabile Elementele cu aceleași chei sunt listate în ordine inversă, deoarece prima căutare scanează înregistrările de la Rn la Ri (Acest lucru este foarte util, deoarece liniile și ale programului setează R la , dar, desigur, nu este necesar să faceți prima scanare înapoi ) Dacă stiva nu este goală, atunci WOTMEO] indică deja prima intrare; dacă este gol, atunci setăm P Kj Apoi setăm (Rj+i, ,Rk-i,Rk) "- (Rk, Rj+i, ■ ■ •, Rk-i) fără a modifica câmpurile LINK Este convenabil să forțați cheia artificială Ko, care este oo, prin definiția integrabilității Riemann, obținem bk -> N fg f(x)dx = N (b) Aici Aij = Lungimea căii exterioare este de asemenea (optimă) În notația ex - t L(n) - В(гі) = £((efc + k - l) efc - (ei + l) efc) + ei+ - e ei - ( ei + ■ ■ ■ + ei t+ + e') > În acest caz, egalitatea este atinsă dacă și numai dacă n = k - pentru unele k > jі > - , numărul maxim de comparații va fi B(u) ] Pentru n > , numărul de rezultate în care cea mai mică cheie apare exact de k ori este Astfel, Pn = ( )Pn-k pentru n > și avem P(z) = e P(z) + , ca rezultă din formula -( ) O altă demonstrație se bazează pe faptul că Pn = deoarece {([} există o serie de moduri de a împărți un set de n elemente în k subseturi nevide, iar aceste subseturi pot fi rearanjate în k\ moduri Astfel, conform formulei -( ) Și totuși, a mai rămas o dovadă, poate cea mai interesantă Compunem o succesiune stabilă a tuturor elementelor, astfel încât Ki precedă Kj dacă și numai dacă Ki Depunerea r / h A , r(r - n ) \ ( I A \ gso / z - p \ z - Ip - tgіk z - ln + xik) fc>l dă o serie convergentă P"/n! = |(ln ) " + R((C + xik) n *) S'(n) > S(n) deoarece toate cheile pot fi diferite; astfel, rămâne să arătăm că S'(n) și exact k elemente au valori cunoscute ( sau ) Atunci /( ) = /( ) = p( ) = , p( ) - ; /(n) = + |/(n - ) + "(n - ), p(n) = + min(p(n - ), lp(n - ) + |p(n) - )) = + |p(n - ) + |p(n - ) pentru n > (Astfel, cea mai bună strategie este de a compara două chei necunoscute ori de câte ori este posibil ) Aceasta implică că /(n) ) - g(n) = j(f(n - ) - g(n - )) pentru n > și g(rі) = |(n + |( - (- |) n)) pentru n > Prin urmare, răspunsul este | - |(-|)n - (|)n pentru n > (Această formulă exactă poate fi comparată cu estimarea teoretică informațională a limitei inferioare log ( n - ) și , n ) Faptul că Sm(n) m poate fi demonstrat folosind tehnica inserției binare Pe de altă parte, Sm(n) > flg ^ {£}&!] > și limita părții din dreapta este egală cu nlgm + G(((m - l)/m)n) (vezi formulele -( )) (a) Dacă nu se fac comparații redundante, atunci cheilor egale, atunci când sunt comparate pentru prima dată, li se poate atribui o relație de ordonare arbitrară, deoarece această relație de ordonare nu poate fi dedusă din comparațiile anterioare (b) Să presupunem că arborele sortează puternic orice succesiune de și Să demonstrăm că sortează puternic orice permutare a elementelor { , , , n} Să presupunem că nu este așa, adică există o permutare pe care se presupune că o comandă ca Kai Kai + I Să înlocuim toate elementele Kai cu unu; prin presupunere, metoda noastră va sorta permutarea rezultată dacă alegem calea care duce la Ka +i este egal cu fn-q + mj\ / q - + j \ \n-q/\d- /' Nu, pentru că întotdeauna considerăm ramura cea mai puțin eficientă sub fiecare nod de comparație Una dintre cele mai eficiente ramuri ar putea fi mai intensivă în muncă Fie L numărul maxim al nivelului pe care există noduri externe, iar I un astfel de număr minim Dacă L > I + , atunci la nivelul L se pot elimina două noduri și le pot plasa sub un nod la nivelul Z; ca urmare, lungimea traseului extern va fi redusă cu I + L - (L - + ( + )) = L - I - > În schimb, dacă L - t(x), t(l(x) ) [lg Z(a?)J - și [lg f(Z(a?))"|, [ lgZ(r(a;))] j în subarborele din dreapta al nodului i :j În arborele rezultat, care este interpretat ca un arbore de comparație-schimb, fiecare nod frunză determină o singură permutare, iar aceasta poate fi sortată în cel mult n - schimburi de comparație suplimentare (acest lucru este prezentat în exercițiul - ) [Ideea unui arbore de comparație de schimb se datorează lui T N Hibbard ] Sunt necesare cel puțin comparații-schimburi, deoarece în orice arbore de înălțime există o ramură care, după pași, va duce la o configurație în care a / (sau dualul său) Această configurație nu poate fi sortată în trei operațiuni de comparare-schimbare Pe de altă parte, mai jos este un arbore care atinge limita inferioară dorită pentru estimare (și, de asemenea, poate, numărul mediu minim de schimburi de comparație) : : : simetric simetric : : : : : : : = : : : Pentru orice arbore de ordinul x cu rezoluție , se poate aplica o operație simplă pentru a obține un alt arbore a cărui lungime a căii ponderate nu depășește lungimea traiectoriei arborelui original și: (a) există un număr k astfel încât toate nodurile externe se află la nivelurile k și k - , (b) cel mult un nod extern conține o valoare non-întreg, iar dacă există una, atunci este la nivelul k Lungimea căii ponderate a oricărui astfel de arbore are valoarea specificată, deci trebuie să fie minimă În schimb, dacă condițiile (iv) și (v) sunt îndeplinite într-un arbore de căutare cu valori reale, atunci prin inducție se poate demonstra că lungimea căii ponderate are valoarea specificată, deoarece există o formulă simplă pentru acest parametru care o exprimă în ceea ce privește lungimile drumului celor doi subarbori rădăcină Cheia acestei probleme constă în experimentele nereușite descrise în Knuth, Kaehler, Information Processing Letters ( ), - Vezi Note matematice ( ), - Pentru o trecere în revistă a progreselor în rezolvarea acestei probleme, vezi S Felsner, W T Trotter, Combinatorics, Paul Erdos is Eighty ( ), - S-a dovedit, de asemenea, că putem obține întotdeauna ; l i + , strategia A(r, r+ ) poate fi folosit Pentru a introduce k + m elemente într-o succesiune de alte n elemente, introduceți k elemente și m elemente în mod independent (Dacă balena este mare, se poate aplica o procedură mai avansată; vezi exercițiul ) In urmatoarele diagrame i :j inseamna comparatia A,:By Mtj denotă îmbinarea i elemente cu j elemente în pași M(r, j), iar A denotă sortarea configurației ,*/, sau în trei pași L/ A/iz + : ( ; dSG / (b: (I I + L / k : Simetric ( - ) (z-z) (zTz) ( G ) (i- ) Mzz+ ( ? ) rb) p ) ( - ) @ R/ +I+L O M s+ (a ) A M + (s-b) (s? ) M g+ M + p ) A A+ M II + II z-L L/ + M +I +A W - Мі - II - L/ + L/iz+ Să folosim indicația: setăm n = gt Putem presupune că t > Fără pierderea generalității, putem face A Bj prin prima comparație Dacă j > gt-i, atunci rezultatul A t mai mulți pași Dacă j Bj Obținem cele mai multe informații când j = gt-i Dacă t = k + , atunci am putea îmbina A cu gt - gt-i = fc elemente mai mari decât B j și să îmbinam Ai cu elementele gt-i rămase, dar pentru aceasta ar necesita k + (k + ) = t pași Pe de altă parte, dacă n = gt - , atunci s-ar putea îmbina A cu fc - elemente, iar apoi Ai - cu n elemente în (k - ) + (k + ) pași Prin urmare, M( , gt - ) k~ Să presupunem că dacă A > B , atunci vom compara Ai : Bj Dacă j > fc , atunci rezultatul Ai B k-i s-ar putea compara și Ai cu B k-i + k- , apoi cu B k-i + k- + k-s; deoarece *-i | *! + *: > pt i, tot ce rămâne este să fuzionezi {Ai, A ) cu n-( k~ + k~ + k~ ) elemente Desigur, nu este deloc necesar să efectuați imediat comparații cu Ai; puteți compara în schimb A :Bp+i Dacă j k~ , atunci considerăm A > Bn + ij ) pași Continuând raționamentul, constatăm că singura cale potențial fructuoasă este A > B ( A B k-i, Ai > B k-i + k- , Ai > B k-i + k- + k- , dar apoi mai există exact elemente gt-s! Dimpotrivă, dacă n = gt - , atunci această cale duce la rezultatul dorit [Acta Informatica ( ), - ] Prima comparație trebuie să fie fie a- Xk, unde X/, duce la problema de sortare a Y, -*-unde Yi = Xi - k Vezi Computere in Number Theory (New York: Academic Press, ), - SICOMP ( ), - Soluția completă pentru cazul M( , r ) a fost obținută după un timp scurt de J Schulte, Monting, Theor Comp sci ( ), - , unde este de asemenea propusă o soluție pentru cazul A ( ,n) Dublați m până când rezultatul este mai mare decât n Pentru a face acest lucru, trebuie să efectuați | lg(n/m)J + operații de dublare Pentru toate (m, n), cu excepția (m, r) = ( ), ( ), ( ), ( ), ( ), ( ), ( ), ( ) Cu aceste valori, numărul de comparații este cu unul mai mult decât numărul optim Să presupunem că m lg nm - Igm! > mlgn - (mlgm - m + ) = m(t + ) + m - = H(m, ri) + Ѳm - [ (r)mj > H(m, ri) + Ѳm - w > H{m , ri) - m (Inegalitatea m! Rezultă că cel puțin n zerouri sunt eliminate la primul răspuns "da" al adversarului și n - la al doilea răspuns și așa mai departe algoritmul se va termina numai după ce au fost primite n răspunsuri pozitive la întrebări neredundante și după ce am pus cel puțin n -(n - ) -F întrebări [JACM ( ), - ] Raționament similar ne va conduce la concluzia că este necesar n - (n - ) - - (n - m - ) întrebări pentru a afla că A C B pentru [A[ = m Bn+ -j] (În N Liniai, M Saks, J Algorithms ( ), - , această concluzie este atribuită lui J Shearer Un rezultat similar se referă la sortarea și căutarea oricărei ordonări parțiale ) SECȚIUNEA Jucătorul a pierdut în fața jucătorului , așa că se știe că jucătorul este mai slab decât jucătorii , I și Fie x ( lea element în ordine descrescătoare, și fie S mulțimea tuturor elementelor lui y astfel încât comparațiile făcute nu sunt suficiente pentru a demonstra că x I > • ■ • > Im- Există doar câteva moduri de a efectua prima comparație Strategia A(j, k) pentru j g(Jl, • • • , lm) Strategia B(J, k) pentru lk > Comparați cel mai mare element al grupului j cu unul dintre cele mai mici elemente ale grupului k Aceasta dă relația /(іi, • • • , m) g(li, ■ ■ ■ ,lm) - Strategia C(j, k) pentru j , lk > Comparați unul dintre elementele mai mici ale grupului j cu unul dintre elementele mai mici ale grupul k Relația corespunzătoare f(l\, , ,lm) g( ll, ■ ■ ■ , lm) Găsim valoarea lui f(li ,■■■, lm) luând minimul laturii drepte dintre toate aceste strategii; în consecință, f(li, ■ , it) > g( i, ,it) - Dacă m > , atunci strategia A(m - , m) arată că /(/ , , lm) ■ ■ ■ > lm (Demonstrație flg(M + ")] = (lg(M + )] pentru , dacă j + este în a , Cj este egal cu plus numărul de comparații necesare pentru a selecta următorul element a' în ordine descrescătoare În mod similar, dacă j + este în a", Ci este întotdeauna , deoarece copacii arată întotdeauna la fel la sfârșit Cu alte cuvinte, există un arbore binar extins cu n noduri exterioare, astfel încât suma distanțelor de la rădăcină la t - noduri interioare cele mai exterioare să fie mai mică decât suma corespunzătoare pentru un arbore binar complet? Răspuns la această întrebare negativ, deoarece (după cum este ușor de arătat) k-lea element u(a) în ordine descrescătoare este mai mare sau egal cu [lg(n - fc)J pentru tot a (Se folosesc șase comparații pentru toate căile, dar această procedură nu este optimă pentru V ( ) ) (Media găsită manual prin încercare și eroare; a folosit exercițiul pentru a facilita găsirea liniilor utile ) A se vedea Information Processing Letters ( ), - După îndepărtarea celui mai mic dintre {Xi, X , Xs, Xi}, obținem configurația - • plus n - elemente izolate; al treilea dintre ele poate fi găsit în V (n - ) - încă pași Aflând mediana primelor /(n) elemente, să zicem Xj, comparați-o cu fiecare dintre celelalte; aceasta va oferi o partiție a tuturor elementelor în aproximativ n/ - k mai mic decât Xj și n/ + k mai mare decât Xj, pentru unele k Rămâne să găsim elementul |A:| lea în mulțimea mai mare din ordin descrescător sau crescător, astfel încât să necesite n/ + O(|fc|logn) mai multe comparații Media |fc| este egal cu ( /y/n) + O(n/y/ f(n)) (se consideră punctele distribuite uniform pe intervalul [ ]) Notăm cu T(n) numărul mediu de comparații pentru /(n) = n ' ; avem T(n) - n = T(n / ) - n ^ + n/ + O(n ,/ ); deci urmează rezultatul dorit Interesant, pentru n = , această metodă necesită doar comparații în medie, ceea ce este ceva mai bun decât arborele din Ex În cazul general, cele t mai mari elemente pot fi găsite în Ut(n') ; dacă a > ; dacă b > ; dacă c> Rezultă că [|a"| + b + c - comparații sunt necesare pentru a obține ( , , , a + b + c + d - ) din (a, b, c, d) [Vezi CACM ( ), - În FOCS ( ), - , Paul a demonstrat că acest algoritm minimizează și numărul mediu de comparații ] Folosiți ( ) mai întâi pentru cel mai mare element, apoi pentru cel mai mic Rețineți că [n/ j comparații sunt comune în ambele cazuri Vt(n) a- scoate la iveală b După ce am rezolvat aceste trei cazuri, rămânem cu arbori A și B (eventual noi), în care câștigătorul B tocmai a plecat la ieșire Scoateți acest element din B și înlocuiți-l cu elementul -oo, efectuând toate comparațiile necesare pentru a restabili structura arborescentă (ca în metoda select from tree) Aceasta completează pasul j La pasul se efectuează fc - + fc+ t - comparații, iar la pasul t se realizează una La fiecare dintre pașii , , , t - , se efectuează cel mult k - comparații, cu excepția cazului , când poate exista k Dar dacă apare doar cazul , păstrăm o comparație pentru data viitoare pentru cazul sau cazul , deoarece ao ar fi atunci egal cu -su Astfel, în total, la pașii de la la t - , se realizează cel mult (t - l)(fc - ) + comparații După cum rezultă din rezultatele ex , avem IVt(n) t > Dacă n > k + - , rezultatele de ex spunem că țVt(n) > n - t + pig( * + t - ) -], care este egal cu n - t + (t - l)fc + dacă t > Astfel, dat fiind metoda este optimă pentru k + - t > (și, de asemenea, pentru unele valori mai mici ale lui n dacă t este mai mare) O metodă similară, care utilizează elemente de rezervă în loc de - oo la rearanjarea B la sfârșitul pașilor , , t - , demonstrează că Vt(n) t > (vezi demonstrația formulei (II)) [Cm J Algorithms ( ), - ] În general, dacă r • * oo; dar în D Dor, Ph D teză, Universitatea din Tel Aviv, , se arată că în realitate limita inferioară este mult mai mare decât Dor și U Zwick au găsit și o limită superioară, care s-a dovedit a fi , [SODA ( ), - ]; au demonstrat că asimptota pentru limita superioară este Voya(n) T+, puteți găsi elemente de rangurile T și + alegând "+ - - + elemente între uiv Să demonstrăm că este foarte puțin probabil să se dovedească așa + + y/nlnn; astfel, O(nlogn) ,/ comparații suplimentare vor fi aproape întotdeauna suficiente Indicația urmează prin inducție pe n dacă putem arăta că "foarte puțin probabil" înseamnă "cu probabilitate O(n e) pentru tot n suficient de mare" Rețineți că Ps+i/Ps = s(n - s + t)/(s + - t,)( n - s) scade pe măsură ce s crește de la t la n + t și acest raport n(t - l)/(n - ); it s(c) să fie n '/ (lnn) '/ t '/ (n-t)- pentru toate n mari, iar aproximarea lui Stirling dă pg(c) și Ps(c) sunt egale O(n ^ ~ ^ ( n - s) / ) exp(- sc (n - t) /n - ( n - s)c t /n ) |tTj - |; dacă |mr,- -= |mr - |, ne referim la | pentru amandoi Atribuirea la contul tg se numește utilă dacă tg; tg, > t; altfel este inutil Fie xx scorul final pentru k Atunci numărul total de comparații este egal cu rі + • • ■ + xn Este evident că xi = ; dar Xk > pentru toate k t, deoarece fiecare element altul decât t are un număr util Să demonstrăm că Em(+* + Ext-k > pentru + A^] Atunci DTr) + Ak + Ak - Bk - B & + Ck + Ck- [Pentru rezultate suplimentare vezi JACM ( ), - ] Limita superioară din ( ) are și o limită inferioară corespunzătoare: Andrew și Francis Yao au demonstrat că Vf(n) > n + |t(lnlnn - Int - ) pentru 